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— 2 证 


大 数据 (Big Data) 已 被 视 为 硬件 .软件 .网 络 之 外 的 第 四 种 计算 资源 , 随 着 各 类 大 数据 
应 用 的 兴起 ,大 数据 的 采集 、 存 储 、 建 模 及 计算 处 理 已 成 为 分 布 式 计算 领域 的 热门 研究 课题 ， 
也 引起 产业 界 极 大 的 兴趣 和 关注 。 大 数据 的 计算 处 理 不 仅 涉及 各 类 数据 分 析 挖 掘 算法 ,其 
计算 系统 的 性 能 更 多 依赖 于 计算 模型 与 计算 架构 。 目 前 ,比较 一 致 的 看 法 是 大 数据 计算 系 
统 大 致 可 分 为 三 个 层次 : 数据 存储 层 ,数据 处 理 层 和 数据 应 用 层 。 数 据 存 储 层 提供 海量 数 
据 存储 架构 与 数据 访问 界面 ; 数据 处 理 层 提供 对 数据 分 析 算 法 和 计算 模型 的 支持 ; 数据 应 
用 层 则 包含 各 种 基于 大 数据 计算 分 析 的 应 用 软件 系统 。 这 三 个 层面 都 涉及 不 同 的 数据 模 
型 .计算 架构 及 开发 技术 标准 ,目前 主流 的 有 两 个 主线 : 以 Google 为 代表 的 商业 产品 和 以 
Hadoop 为 代表 的 开源 技术 。 在 学 习 和 研究 大 数据 计算 技术 时 ,需要 对 上 述 计算 架构 .技术 
和 标准 有 一 个 总 体 的 了 解 , 这 样 才能 做 到 不 限于 一 点 而 把 握 全 局 。 

针对 国家 “互联 网 十 ”的 战略 发 展 需求 ,近期 国内 不 少 高 校 新 开设 了 数据 科学 与 大 数据 
计算 技术 专业 ,大 数据 分 析 与 计算 成 为 其 主干 专业 课程 ,其 他 如 计算 机 科学 与 技术 .互联 网 
应 用 系统 、 物 联网 工程 等 专业 都 需要 开设 大 数据 计算 课程 ,因此 迫切 需要 一 本 对 大 数据 处 
理 与 计算 有 一 个 较 全 面 的 论述 .适合 高 年 级 本 科 生 或 研究 生 学 习 的 教材 , 正 是 基于 这 种 
需求 ,本 书 作者 编著 了 此 书 , 希 望 对 大 数据 计算 系统 的 各 类 分 析 算 法 、 计 算 模型 .计算 架 
构 与 开发 技术 做 出 一 个 综合 性 的 介绍 与 阐述 ,为 大 家 进一步 学 习 大 数据 技术 及 应 用 开发 
打下 基础 。 

全 书 共计 20 章 , 第 1 一 3 章 介 绍 大 数据 计算 的 概念 .计算 体系 总 体 架 构 .技术 标准 等 ,让 
读者 建立 大 数据 计算 的 基本 概念 ; 第 4 一 6 章 介绍 数据 采集 方法 .数据 建 模 及 各 类 分 析 算 
法 ; 第 7 一 10 章 介绍 文本 数据 读 取 、 数 据 处 理 与 分 析 、 数 据 可 视 化 技术 ; 第 11 章 和 第 12 章 
详细 介绍 Hadoop 计算 平台 ,包括 HDFS 分 布 式 文件 系统 与 MapReduce 计算 模型 ; 第 13 一 
16 章 具体 介绍 各 类 大 数据 计算 模型 与 架构 ,包括 图 并 行 计算 、 交 互 式 计算 、 流 计算 、 内 存 计 
算 等 ,其 中 重点 阐述 了 Pregel, Hama, Storm, Spark 等 计算 架构 ; 第 17 一 20 章 则 介绍 了 大 
数据 计算 技术 在 医疗 保险 系统 ,互联 网 电子 商务 ,金融 信贷 系统 等 领域 的 应 用 。 本 书包 含 内 
容 较 多 、 篇 幅 较 长 ,教师 在 讲授 时 可 根据 自己 的 需要 对 章节 进行 选取 裁剪 。 

汤 羽 教授 负责 本 书 的 总 体 结构 及 第 1 一 3 章 、 第 11 章 和 第 12 章 的 撰写 , 林 迪 副教授 负 
责 第 4 一 10 章 , 范 爱 华 副 教授 负责 第 13 一 16 3€ , 吴 薇 蕉 硕士 负责 第 17 一 20 章 。 本 书 部 分 图 
片 取 自 互联 网 ,部 分 文字 也 参考 了 网 页 内 容 , 作 者 尽 可 能 将 引用 链接 在 参考 文献 罗列 中 给 
出 , 少 部 分 无 法 给 出 引用 的 ,作者 在 此 一 并 致谢 。 
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大 数据 计算 是 一 个 新 兴 技 术 领 域 且 仍 在 高 速 发 展 中 ,新 的 概念 、 方 法 和 技术 不 断 涌现 。 
作者 因 学 识 有 限 ,本 书 必 然 会 存在 不 足 ,希望 得 到 学 界 同仁 的 批评 指正 ,以 利 我 们 改进 完善 。 
“ 业 精 于 勤 荒 于 嬉 ` 行 成 于 思 毁 于 随 ”, 作 者 愿 与 科学 界 同行 一 起 努力 在 这 个 领域 耕耘 。 
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进入 21 世纪 ,人 类 发 现 自己 正面 临 着 中 国 唐 代 诗 人 李白 描述 的 “黄河 之 水 天 上 来 ” 
(图 1-1) 的 大 数据 场景 : 互联 网 搜索 引擎 Google 每 天 完成 10 亿 次 查询 ,社交 网 站 Facebook 
每 天 处 理 80 亿 条 信息 ; 在 科学 领域 ,2003 年 基本 完成 的 基因 组 计划 完成 了 四 十 多 种 生物 全 
基因 组 测序 以 及 3.2X10” 人 类 基因 组 碱 基 对 测序 ,到 2006 年 DNA 碱 基数 目 已 超过 
1300 亿 , 目 前 全 世界 每 年 生物 数据 产 出 量 估计 已 达 105B(C1PB) , 且 以 每 三 年 翻 一 番 的 速度 
增长 ; 在 金融 领域 ,中 信和 银行 2008 年 发 卡 500 万 张 ,2010 年 则 翻 了 一 倍 , 带 来 了 海量 数 
据 需 要 处 理 ; 2012 年 ,国家 工业 和 信息 化 部 宣布 ,中 国 移动 互联 网 用 户 已 达 7.5 45. 与 
此 同时 , 随 着 智慧 城市 、 物 联网 等 新 兴 应 用 模式 的 发 展 ,各 种 摄像 头 、 数 字 标 牌 、 感 应 装 
置 , 检 测 装置 以 及 嵌入 式 终端 的 数量 也 在 急剧 增加 ,有 关 数 据 预 测 显 示 : 作为 物 联网 一 个 
重要 组 成 部 分 的 射频 识别 (RFID) 标 签 ,其 销量 将 从 2011 年 的 不 到 30 亿 个 发 展 到 2021 年 


ey n 





图 1-1 黄河 之 水 天 上 来 
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的 2090 亿 个。 在 互联 网 浏览 搜索 、 物 联网 传 感 数据 、 移 动 终端 与 GPS 系统 .以 及 社交 网 络 
等 领域 ,全 世界 的 信息 量 以 每 两 年 翻番 的 速度 增长 。 据 国际 研究 机 构 IDC 报告 : 2011 年 
全 球 数据 量 为 1. 8ZBOZB- 10°PB= 10 TB = 10° GB), 2015 年 达到 8ZB,2020 年 将 达 
到 35ZB。 





1.1 数据 与 数据 科学 


1. 数据 定义 

数据 (Data) 被 看 作 现实 世界 中 自然 现象 和 人 类 活动 所 留 下 的 轨迹 口 。 在 计算 机 科学 
中 ,数据 的 定义 是 指 所 有 能 输入 到 计算 机 并 被 计算 机 程序 处 理 的 符号 的 总 称 ,是 具有 一 定 意 
义 的 数字 .字母 .符号 和 模拟 量 的 统称 。《 韦 伯 斯 特大 词典 》(Merriam-Webster Dictionary ) 
把 数据 定义 为 “用 于 计算 、 分 析 或 计划 某 种 事物 的 事实 或 信息 ; 由 计算 机 产生 或 存储 的 信息 
(facts or information used usually to calculate. analyze or plan something; information 
that is produced or stored by a computer) "? 。 事 实 上 ,数据 的 形式 多 样 化 ,可 以 表现 为 数 
值 文字 、 图 像 .音频 、 视 频 或 其 他 计算 机 可 以 识别 和 处 理 的 形式 ,数据 来 源 也 可 以 是 社会 数 
据 ( 商 业 数据 .生产 数据 ,系统 数据 ,媒体 数据 等 )` 个 人 数据 (社交 网 络 ` 个 人 消费 ) 政府 数据 
(统计 数据 、 人 口 普查 \ 经 济 年 报 等 )。 人 类 四 千年 历史 所 产生 的 所 有 的 文明 记录 ,包括 历史 、 
文学 ,艺术 ,哲学 .考古 及 一 切 的 科学 成 就 ,都 可 以 数据 的 形式 存储 和 保留 下 来 。 

2. 数据 简 史 

在 人 类 文明 有 记载 的 四 千年 历史 中 ,人 类 活动 记录 从 早期 古 埃及 的 结 绳 记事 (图 1-2) 
到 中 国 股 商 时 期 (公元 前 1320 一 1046 年 ) 的 甲骨 文 (图 1-3), 从 东汉 宽 官 蔡伦 (公元 61—121 
年 ) 发 明 造 纸 术 (图 1-4) 到 北宋 布衣 毕 异 (公元 61 一 121 年 ) 发 明 活 字 印 刷 术 (图 1-5) ,文明 的 
记录 无 不 以 文字 (数据 的 一 种 形式 ) 传 承 下 来 。 





图 1-2 结 强 记 事 图 1-3 BERmREX 





图 1-4 蔡伦 造纸 术 图 1-5 毕 异 活字 印刷 术 


到 了 近代 , 面 对 日 益 增 长 的 计算 量 , 人 工 计算 的 方式 已 难以 应 对 ,人 类 进入 了 机 械 计算 
时 代 。 这 一 时 期 的 代表 有 : 1642 年 ,法 国 数学 家 布 莱 士 。 帕斯卡 (Blaise Pascal) 发 明 的 机 械 
式 加 减法 计算 机 ; 1671 年 ,德国 数学 家 戈 特 弗 里 德 。 莱 布 尼 茨 (Gottfried W. Leibniz) ffl 
了 第 一 台 能 够 进行 加 减 乘除 运算 的 机 械 式 计 算 机 ; 1833 年 ,英国 科学 家 查尔斯 。 巴 贝 奇 
(Charles Babbage) 提 出 了 自动 化 分 析 机 的 设计 ,第 一 次 提出 了 机 器 可 执行 预先 记录 在 穿孔 
卡 上 的 指令 来 完成 计算 的 思路 。 与 之 合作 的 艾 达 。 洛 夫 莱 斯 们 示 夫 人 (Augusta Ada 
Lovelace) 更 进一步 为 巴 贝 奇 机 器 写 出 了 计算 注释 笔记 ,其 中 包含 由 机 器 执行 的 计算 伯 努 利 
数 的 算法 和 步骤 ,被 认为 是 人 类 完成 的 第 一 个 可 执行 的 计算 机 程序 , 艾 达 也 因此 作为 人 类 历 
史上 的 第 一 个 计算 机 程序 员 而 被 纪念 。 

进入 20 世纪 ,1904 年 ,英国 工程 师 约 翰 。 弗 菜 明 (John A. Fleming) 发 明了 真空 二 极 
管 ; 1906 年 ,美国 工程 师 李 。 弗 雷 斯 特 (Lee de Forest) 发 明了 真空 三 极 管 ; 1947 年 ,美国 由 
尔 实 验 室 的 科学 家 威廉 。 肖 克利 (William B. Shockley) ,约翰 ， 巴 丁 (John Bardeen) 和 沃 尔 
特 。 布 拉 顿 (Walter Brattain) 组 成 的 研究 小 组 发 明了 晶体 管 ; 1958 年 ,美国 物理 学 家 杰 
T e ÆRE Jack Kilby) 发 明了 集成 电路 技术 。 电 子 管 . 品 体 管 ,集成 电路 技术 及 随后 的 超 
大 规模 集成 电路 (VLSI) 的 诞生 使 得 人 类 真正 进入 了 电子 计算 机 时 代 。1946 年 2 月 ,世界 
上 第 一 台电 子 管 计算 机 * 埃 尼 阿 克 ”(ENIAC) 在 美国 宾夕法尼亚 大 学 诞生 ; 1956 年 ,美国 由 
尔 实 验 室 研制 出 第 一 台 晶 体 管 计算 机 TRADIC; 1964 年 ,美国 IBM 公司 推出 第 一 代 采 用 集 
成 电路 的 电子 计算 机 IBM360 系列 ,这 以 后 各 种 计算 能 力 更 为 强大 、 数 据 处 理 能 力 呈 爆炸 式 
增长 的 超级 计算 机 、 高 端 服 务 器 、 图 形 工作 站 以 及 计算 机 集群 层出不穷 ,使 得 计算 机 处 理 数 
据 的 能 力 从 早期 的 KB、MB 级 别 达到 了 今天 的 TB 或 PB 量 级 。2015 年 ,美国 著名 社交 网 
站 Facebook 每 天 需 处 理 100 亿 条 消息 和 3. 5 亿 张 新 图 片 , 而 谷歌 (Google) 每 天 应 对 的 查询 
请 求 达到 30 亿 次 ,后 台 处 理 的 数据 量 达到 85TB。 

应 当 注意 的 是 ,数据 (Data) 信息 (Information) , X018 (Knowledge) 5j fft ffi (Value) 这 
4 个 词 在 信息 科学 中 既 相互 关联 ,又 具有 不 同 的 含义 。 数 据 体现 的 是 一 种 过 程 . 状 态 或 结果 
的 记录 ,这 类 记录 被 数字 化 后 可 以 被 计算 机 存储 和 处 理 。 信 息 则 是 包含 在 数据 之 中 的 能 够 
为 人 脑 理解 和 思维 推理 和 结论 。 例 如 ,“01001000 01100101 01101100 01101100 01101111 
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00100000 01110111 01101111 01110010 01101100 01100100 00100001? 是 一 串 二 进 制 数值 ， 
是 一 组 能 被 计算 机 识别 ,存储 和 处 理 的 数据 。 经 计算 机 程序 识别 转换 (ASCII 码 值 字符 转 
换 ) ,我 们 知道 它 代表 “Hello world!1” 这 样 一 个 字符 串 , 包 含 向 世界 问好 的 特殊 信息 。 更 进 
一 步 ,在 计算 机 编程 语言 世界 ,“Hello world!1” 实 际 上 是 一 个 约定 俗 成 的 机 器 或 程序 语言 启 
动 显示 语句 ,这 就 上 升 为 知识 。 最 终 , 如 果 有 人 把 这 一 固有 的 显示 方法 拿 去 注册 了 专利 并 因 
此 获 利 , 就 产生 了 价值 。 图 1-6 表征 了 这 一 从 数据 到 信息 到 知识 到 价值 的 过 程 。 


01001000 


01100101 
01101100 [O retoer" [ C) 
Jd 
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图 1-6 数据 -信息 -知识 -价值 的 转换 过 程 


3. 数据 科学 

当 信 息 科 学 处 理 的 数据 发 展 到 Facebook 和 Google 的 数据 规模 ,数据 本 身 (类 型 .规模 、 
属性 、 用 途 等 ) 及 相关 的 大 规模 数据 分 析 计 算 技 术 就 形成 了 一 门 新 的 学 科 领 域 : 数据 科学 
(Data Science) 或 数据 工程 (Data Engineering)。 早 在 1974 年 ,丹麦 计算 机 科学 家 、2005 年 
图 灵 奖 得 主 彼 得 .诺尔 (Peter Naur) 即 提出 了 “数据 学 ”(Datalogy) 的 概念 外 ,但 他 更 多 指 的 
是 以 数据 为 对 象 的 计算 机 科学 和 编程 ,认为 “数据 学 ?是 计算 机 科学 的 延伸 ,其 研究 对 象 是 数 
值 化 的 数据 。 事 实 上 ,在 个 人 计算 机 (PC) 出 现 之 前 的 早期 的 计算 机 确实 是 更 多 地 用 于 处 理 
数据 和 科学 计算 ,计算 机 大 大 加 快 了 数据 处 理 的 速度 ,效率 和 准确 性 ,但 作为 计算 机 运算 对 
象 和 输出 结果 的 数据 本 身 尚未 引起 科学 家 们 的 特别 注意 。 

1996 年 ,在 日 本 神户 的 一 个 国际 会 议 上 第 一 次 正式 使 用 “数据 科学 ”这 一 名 称 听 。1997 
年 ,密歇根 大 学 教授 杰 夫 。 吴 (Jeff C. Wu) 在 演讲 中 提出 “统计 学 = 数据 科学 ?的 观点 并 建 
议 将 统计 学 改名 为 数据 科学 ,统计 学 家 改名 为 数据 科学 家 加 2001 年 ,贝尔 实验 室 科学 家 
威廉 。 克 里 富 兰 (William S.Cleveland) 第 一 次 提出 数据 科学 应 作为 由 统计 学 延伸 出 来 的 
一 个 独立 研究 领域 ,认为 统计 学 中 与 数据 分 析 有 关 的 技术 内 容 ( 区 别 于 概率 论 ) 在 下 面 
6 个 方面 扩展 后 形成 一 个 新 的 独立 学 科 “ 数 据 科学 ”(Data Science)? 。 

(1) 多 学 科研 究 (Multidisciplinary Investigations); 

(2) 数据 模型 与 分 析 方法 (Models and Methods for Data); 

(3) 数据 计算 (Computing with Data); 

(4) 数据 学 教程 (Pedagogy); 

(5) 工具 评估 (Tool Evaluation) ; 

(6) 理论 (Theory)。 

在 2002 年 和 2003 年 ,国际 科学 委员 会 (International Council for Science) 和 哥伦比亚 
大 学 分 别 创办 了 数据 科学 杂志 ,为 这 一 学 科 和 领域 的 研究 工作 发 表 和 交流 建立 了 国际 学 术 平 
台 。 大 规模 数据 计算 的 特点 和 重要 性 已 引起 科学 界 注意 ,数据 科学 或 数据 处 理 技术 被 有 些 
科学 家 认为 将 成 为 一 个 与 计算 科学 并 列 的 新 科学 领域 。 已 故 著名 图 灵 奖 获得 者 Jim Gray 
在 2007 年 的 一 次 演讲 中 提出 ,数据 密集 型 科学 发 现 (Data-Intensive Scientific Discovery) 将 
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成 为 科学 研究 的 第 4 范式 ,科学 研究 将 从 实验 科学 、 理 论 科 学 .计算 科学 ,发 展 到 目前 兴起 的 
数据 科学 中 。 

数据 科学 实际 上 可 以 理解 为 基于 传统 的 数学 和 统计 学 理论 和 方法 、 运 用 计算 机 技术 进 
行 大 规模 数据 计算 、 分 析 和 应 用 的 一 门 学 科 。 美 国 应 用 统计 学 和 计算 机 技术 研究 社会 动力 
ERU ARY Drew Conway 博士 采用 如 图 1-7 所 示 的 韦 恩 图 来 描述 数据 科学 的 知识 结 
构 [ 中 。 图 中 ,Math & Statistics Knowledge 指 传统 的 数学 和 统计 学 理论 ,Hacking Skills 可 
以 理解 为 进行 数据 计算 所 需要 的 计算 机 知识 和 技术 ,Substantive Expertise 指 实际 行业 经 
验 。 将 数学 统计 学 理论 应 用 于 解决 实际 业务 问题 是 传统 的 研究 方法 ,将 数学 统计 学 理论 方法 
与 计算 机 技术 结合 则 构成 机 器 学 习 领 域 .将 黑客 技能 (计算 机 技术 ) 应 用 于 行业 领域 则 造成 危 
险 后 果 ! 而 数学 统计 学 理论 ,计算 机 技术 ,行业 知识 三 者 的 结合 ,就 构成 了 数据 科学 体系 。 

美国 数据 科学 家 Rachel Schutt 在 她 的 数据 课程 课 
堂上 对 修 课 学 生 的 知识 结构 做 过 一 个 调查 统计 局 ,得 
出 了 如 图 1-8 所 示 的 数据 科学 家 的 知识 结构 。 从 中 可 
以 看 出 ,数据 科学 家 的 主要 知识 技能 包括 如 下 学 科 领 
域 ( 按 重要 性 依次 排列 )。 

(D 统计 学 

(2) 数学 ; 

(3) 计算 机 科学 ; 

OD 机 器 学 习 ; 

(5) 数据 可 视 化 ; 

(6) 沟通 技巧 ; 

(7) 领域 知识 。 


数据 可 视 化 ”机 器 学 学 统计 学 “计算 机 科学 “沟通 技巧 ”领域 知识 
图 1-8 数据 科学 家 知识 结构 


从 图 中 可 看 出 ,统计 学 数学、 计算 机 科学 和 机 器 学 习 在 数据 科学 知识 结构 中 占据 了 主 
要 部 分 ,因此 一 种 观点 认为 数据 科学 不 过 是 数学 和 统计 学 的 一 个 延展 ,只 是 将 数学 统计 学 理 
论 辅 之 以 计算 机 强大 计算 能 力 来 解决 实际 问题 。 美 国 Carnegie Mellon University 的 
Cosma R. Shalizi 博士 就 认为 数据 科学 不 过 是 统计 学 换 了 个 新 说 法 口 ,美国 统计 协会 
CASA) 主席 Nancy L. Geller 认为 “21 世纪 各 行 各 业 都 涌现 出 海量 数据 ,无 论 是 科学 ,工程 





图 1-7 数据 科学 知识 结构 韦 恩 图 


^s 大 数据 分 析 与 计算 


还 是 医学 ,从 文学 史 到 动物 学 在 处 理 这 些 数据 时 人 们 都 用 到 了 统计 学 技术 。 这 种 数据 大 爆 
炸 为 统计 学 者 提供 了 源源 不 断 的 研究 课题 "上 。 
可 是 数据 科学 、 大 数据 分 析 真 的 仅仅 是 数学 统计 学 的 逻辑 延伸 吗 ? 


1.2 大 数据 概念 


2001 年 2 月 ,Meta Group 公司 的 分 析 师 Douglas Laney( 后 供职 于 Gartner 公司 ) 在 一 
篇 题 为 3D Data Management : Controlling Data Volume , Velocity and Variety(《 三 维 数 
据 管理 : 控制 数据 规模 ,处理 速度 ,及 多 样 性 )) 的 研究 报告 中 中 第 一 次 明确 提出 了 大 数据 
所 具有 的 规模 (Volume)、 速 度 (Velocity) 和 多 样 化 (Variety) 三 个 重要 特征 。2012 年 ， 
Gartner 公司 更 进一步 把 大 数据 表述 为 “所 谓 大 数据 就 是 具有 极 大 规模 、 快 处 理 速度 .种 类 
多 样 化 的 数据 集合 ,需要 新 的 计算 处 理 方法 来 支持 决策 强化 洞察 发 现 和 流程 优化 "21 。 后 
来 人 们 再 加 上 价值 (Value) 这 一 属性 ,被 称 为 表示 大 数据 特征 的 4V(Volume，Velocity， 
Variety and Value) 属 性 或 4 个 基本 特点 。 

在 讨论 大 数据 的 数据 规模 之 前 , 先 列 出 数据 存储 单位 如 下 。 

bit( 比 特 ): 位 ,二 进 制 最 基本 的 存储 单位 。 

lByte( 字 节 ) 二 8bit 

1KB(KiloByte) =1024B =2"Byte 

1MB(MegaByte) =1024KB =2”Byte 

1GB(GigaByte) =1024MB =2”Byte 

1TB(TeraByte) =1024GB =2" Byte 

1PB(PetaByte) =1024TB —2* Byte 

1EB(ExaByte) =1024PB -—2" Byte 

lZB(ZettaByte) =1024EB =2” Byte 

lYB(YottaByte) =1024ZB  —2" Byte 

1IBB(BrontoByte) —1024YB =2%” Byte 

IGPB(GeopByte) —1024BB =2™ Byte 

简化 起 见 ,有 时 我 们 写成 1KB— 1000bytes. IMB— 1000KB. 1GB— 1000MB, + , 

大 数据 的 超大 规模 (Volume) 特点 使 得 它 处 理 的 数据 量 级 超过 了 传统 的 GBOGB= 
1024MB) 或 TB(1TB 王 1024GB) 规 模 , 达 到 了 PB(1PB 王 1024TB) 甚 至 更 高 量 级 。 以 全 球 社 
交 网 站 Facebook 为 例 , 它 后 台 服 务 器 集群 处 理 的 数据 量 在 2012 年 就 达到 了 每 天 要 处 理 80 
亿 条 信息 ,要 执行 750 亿 次 读 写 操作 52 ; 全 球 搜 索引 擎 Google 每 天 需 支持 10 亿 次 搜索 请 
求 ; 中 国 的 百度 在 2014 年 的 总 数据 量 已 超过 1000PB; 电 商 平台 淘宝 累计 的 交易 数据 量 高 
达 100PB; Twitter 每 天 发 布 超过 两 亿 条 消息 ; 新 浪 微 博 每 天 发 帖 量 达到 8000 万 条 。 据 世 
界 权威 IT 信息 咨询 分 析 公 司 IDC 报告 预测 : 全 世界 数据 量 从 2009 年 的 0. SZB 将 增长 到 
2020 年 的 35ZB(1ZB = 1024EB = 1024X1024PB) ,10 年 将 增长 44 倍 ,年 均 增长 40%ba ， 
这 导致 需要 处 理 的 数据 量 达到 惊人 的 规模 。 

超大 规模 的 数据 量 对 数据 存储 架构 、 计 算 模 型 和 应 用 软件 系统 都 提出 了 全 新 的 挑战 。 
在 后 面 可 以 看 到 ,传统 的 基于 行 键 (row key) 表 格 存储 格式 的 关系 型 数据 库 (RDBS) 已 很 难 
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适应 大 数据 海量 存储 和 快速 检索 查询 的 需要 ,基于 分 布 式 文件 系统 的 分 布 式 数据 库 设 计 越 
来 越 多 地 用 于 大 数据 存储 与 管理 系统 。 另 外 ,如 此 大 规模 数据 量 的 计算 分 析 也 给 计算 模型 
与 计算 方法 带 来 了 挑战 ,除了 传统 的 离线 批 处 理 计 算 MapReduce 模型 29 外 ,基于 BSP 
(Bulk-Synchronous Parallel) 模 型 5 的 图 并 行 计算 框架 Pregela9 , Hama"? , XE T 9 f£ fili 4 
构 (Columnar Storage Structure) 和 内 存 驻 存 (in-memory) 技 术 的 交互 式 计算 模型 中 ,以 及 
基于 集中 共享 式 内 存 结构 的 大 内 存 计 算 系 统 MemCloud?? , H ANAC 等 新 的 计算 模型 与 
计算 架构 都 在 研究 探索 之 中 。 

Velocity 特征 意 指 大 数据 的 计算 处 理 速 度 是 可 用 性 和 效益 性 的 一 个 重要 衡量 指标 。 
20 世纪 90 年 代 开 启 的 互联 网 时 代 所 产生 的 互联 网 数据 是 大 数据 的 一 个 主要 来 源 , 如 果 说 
1990 年 以 前 的 数据 来 源 主 要 是 传统 制造 业 .商业 和 政府 部 门 的 话 (图 1-9 中 的 蓝 色 区 域 部 分 )， 
1990 年 以 后 数据 规模 的 跳跃 型 增长 则 主要 来 自 于 互联 网 领域 (图 1-9 中 的 橙色 区 域 部 分 ) 。 
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图 1-9 互联 网 时 代 的 数据 增长 特征 


互联 网 领域 的 大 数据 应 用 主要 包括 社交 网 络 、 网 络 游戏 .电子 商务 (B2B、B2C、C2C、 
O20 等 模式 ) .精准 营销 、 在 线 音频 /视频 、 在 线 广告 业务 等 。 这 些 应 用 的 一 大 特点 就 是 强调 
时 效 性 和 在 线 用 户 体验 ,如 微 信用 户 的 文字 与 语音 交流 、 天 猫 商城 用 户 下 单 与 订单 跟踪 \ 在 
线 网 游玩 家 的 实时 互动 .基于 互联 网 数据 的 在 线 智能 分 析 与 精准 营销 、 针 对 特定 客户 群体 的 
广告 投放 等 ,无 不 强调 数据 计算 处 理 速 度 和 系统 响应 特性 。 没 有 强大 计算 能 力 支 撑 和 良好 
的 在 线 用 户 体验 ,上 述 各 种 互联 网 商务 模式 都 难以 达到 互联 网 应 用 特有 的 魅力 。 事 实 上 ,中 
国 国 家 工信部 电子 科技 情报 所 在 2012 年 对 中 国企 业 所 做 的 大 数据 需求 调查 表明 5 : 实时 
分 析 能 力 差 .海量 数据 处 理 效率 低 .缺少 高 效 分析 软 件 , 是 目前 中 国企 业 数据 分 析 处 理 面 临 
的 主要 难题 (图 1-10) 。 

Variety 特征 指 大 数据 来 源 种 类 的 多 样 性 、 异 构 性 。 大 数据 的 类 型 按照 其 结构 特征 可 以 分 
为 结构 化 、 半 结构 化 、 非 结构 化 数据 ,按时 效 性 又 可 分 为 离线 非 实时 数据 在线 实时 数据 , 按 关 
联 特性 又 可 分 为 非 关 联 数据 (日 志 型 记录 数据 ) ,关联 型 数据 , 按 数 据 类 型 可 分 为 文字 ,语音 、 图 
片 、 视 频数 值 等 类 型 , 按 数 据 来 源 又 可 分 为 个 人 数据 、 商 业 服 务 数据 、 社 会 公共 数据 、 科 学 数 
据 \ 物 质 世 界 数 据 等 。 图 1-11 则 把 大 数据 划分 为 个 人 数据 、 社 会 数据 ,物质 数据 三 个 维度 。 

大 数据 来 源 的 多 样 性 、 异 构 性 使 得 数据 存储 、 管 理 和 快速 查询 异常 困难 。 以 基于 电子 健 
康 档案 (Electronic Health Record. EHR) fx?fEC7 的 医疗 卫生 数据 为 例 ,数据 类 型 包括 文字 、 


> 大 数据 分 析 与 计算 


实时 数据 分 析 能 力 差 36.4% 
海量 数据 处 理 效率 低 


缺少 数据 全 方位 分 析 方 法 








ERP 软 件 处 理 能 力 差 9.196 





i n 
096 10% 20% 30% 40% 50% 
数据 来 源 : CCW Research.2012/4 


图 1-10 中 国企 业 面临 的 大 数据 难题 
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图 1-11 大 数据 来 源 的 三 个 维度 


表单 .电子 文档 、 医 学 影像 等 各 种 结构 或 非 结构 数据 ; 数据 采集 源 获 盖 各 级 医院 、 基 层 医 疗 
机 构 ( 乡 镇 卫生 院 等 ) ,社区 卫生 中 心 、 国 家 专属 卫生 机 构 ( 如 CDC 疾 控 中 心 ), 以 及 各 级 卫生 
管理 机 构 ; 数据 属性 包含 居民 个 人 健康 档案 数据 、 医 院 医 疗 服务 数据 、 药 品 数据 、 卫 生 综 合 
管理 数据 等 。 这 些 数 据 源 分 散 、 种 类 繁多 , 非 结构 化 的 数据 的 管理 和 应 用 集成 对 传统 的 关系 
型 数据 库 系统 (RDBS) 而 言 , 即 使 能 够 把 数据 采集 存储 起 来 .后 续 的 快速 检索 查询 功能 及 实 
时 应 用 服务 的 开发 也 是 难以 实现 ,而 必须 采用 新 的 存储 架构 和 计算 模型 来 应 对 大 数据 的 多 
样 化 、 异 构 性 难题 。 

大 数据 的 Value 特点 是 指 它 的 价值 低 密度 或 者 说 碎片 数据 毫 无 价值 .但 大 规模 整体 数 
据 体 现价 值 的 特性 ,这 是 大 数据 计算 区 别 于 传统 数学 统计 学 方法 的 关键 之 处 。 面 对 大 规模 
数据 统计 问题 时 , 受 限 于 计算 处 理 能 力 ,统计 学 更 倾向 于 采用 基于 抽样 调查 的 随机 分 析 方 
法 , 即 从 一 个 大 数据 集合 理 抽取 一 个 代表 其 特征 的 子 集 (随机 抽样 ) 进 行 计算 分 析 , 而 分 析 结 
果 的 正确 性 就 取决 于 随机 抽样 模型 产生 的 样本 集 的 代表 性 ,而 且 在 样本 集 上 采用 的 统计 计 
算 模 型 是 确定 的 。 

大 数据 分 析 计 算 则 在 两 个 方面 区 别 于 经 典 统计 学 。 首 先 ,大 数据 计算 不 受 限于 局 部 数 
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据 或 数据 子 集 ,而 是 以 数据 整体 或 完整 数据 集 作为 处 理 对 象 ,哪怕 这 个 数据 集 达 到 超大 规模 
的 数据 量 ,这 就 避免 了 统计 学 方法 计算 结果 取决 于 其 抽取 样本 集 的 合理 性 和 代表 性 的 弱点 。 
其 次 ,对 这 个 超大 规模 数据 集 采 用 的 计算 模型 与 算法 并 不 是 一 开始 就 已 固定 ,而 是 引入 了 机 
器 学 习 方法 , 即 通过 数据 的 积累 来 训练 和 改进 算法 和 计算 程序 , 即 性 能 的 改进 是 一 个 动态 过 
程 ,处 理 数 据 量 越 大 ,计算 结果 越 优化 ,这 也 是 大 数据 计算 只 有 在 数据 量 达 到 一 定 规模 后 才 
呈现 出 价值 的 一 个 原因 。 

关于 大 数据 的 定义 ,目前 在 学 术 界 或 工业 界 尚未 形成 一 个 标准 化 的 表述 ,比较 为 人 们 接 
受 的 有 如 下 几 种 提 法 。 

维基 百科 (Wikipedia) 定 义 大 数据 为 “数据 集 规模 超过 了 目前 常用 软件 工具 在 可 接受 时 
间 范 围 内 进行 采集 ,管理 及 处 理 的 水 平 ”2 。 

美国 国家 标准 技术 研究 院 (NIST) 把 大 数据 定义 为 “具有 规模 大 (Volume)、 多 样 化 
(Variety) 时效 性 (Velocity) 和 多 变性 (Variability) 特 性 ,需要 具备 可 扩展 性 的 计算 架构 来 
进行 有 效 存 储 、 处 理 和 分 析 的 大 规模 数据 集 ”29 。 

与 他 人 的 表述 有 所 不 同 ,IBM 定义 的 4V 特性 包括 : 数量 (Volume) ,多 样 性 (Variety) 、 
速度 (Velocity) 和 真实 性 (Veracity) ,他 们 认为 真实 性 是 当前 企业 吸 须 考虑 的 重要 维度 ,将 
促使 应 用 数据 融合 和 先进 数学 方法 进一步 提升 数据 质量 ,从 而 创造 更 高 的 价值 3 。 

知名 咨询 机 构 麦 肯 锡 全 球 研究 所 (McKinsey Global Institute) 给 出 的 大 数据 定义 是 ， 
一 种 规模 大 到 在 获取 、 存 储 、 管 理 、 分 析 方 面 大 大 超出 了 传统 数据 库 软 件 工具 能 力 的 数据 集 ， 
具有 海量 数据 规模 .快速 数据 流转 、 多 样 数据 类 型 和 价值 低 密度 4 大 特征 。 

总 结 大 数据 上 述 要 点 和 定义 ,除了 在 数据 特征 方面 表现 出 规模 (Volume)、 速 度 
(Velocity) , &fÉTE Variety) ,价值 低 密度 (Value) .数据 真实 性 (Veracity) 等 特性 外 ,更 需要 
注意 大 数据 处 理 的 问题 是 现 有 常规 计算 模型 和 架构 难以 有 效 解决 的 。 

1. 全 球 视野 下 的 大 数据 

如 果 说 2001 年 Douglas Laney 第 一 次 提出 大 数据 的 三 个 V 特性 (Volume, Velocity 
and Variety) 尚 未 引起 学 术 界 和 工业 界 主流 的 注意 的 话 , 自 2008 年 起 ,大 数据 (Big Data) iH 
速 进入 人 们 的 视野 并 且 引 起 了 学 术 界 \ 企 业界 乃至 各 工业 国政 府 的 重视 。 

2008 年 ,著名 学 术 杂 志 Nature 出 版 了 一 期 专刊 c ,组 织 了 系列 文章 The Next 
Google, Data Wrangling , Distilling Meaning from Data . Welcome to the Petacentre 明 
确 提 出 了 Big Data 的 概念 ,讨论 了 大 数据 领域 相关 的 一 系列 技术 问题 和 挑战 。 

2011 年 ,国际 学 术 杂 志 Science 也 组 织 了 一 期 专刊 Dealing with Data E28 对 大 数据 分 析 
在 科学 研究 各 个 领域 (天 文学 .气象 学 .生态 学 .生物 学 .社会 科学 .神经 科学 、 信 号 处 理 等 ) 的 
应 用 及 数据 的 采集 分析、 挖掘 和 可 视 化 等 问题 进行 了 探讨 。 

2011 年 ,麦肯锡 (McKinsey & Company) 发 布 题 为 (大 数据 : 创新 、 竞 争 和 生产 力 的 下 
一 个 前 沿 》(Big data: the next frontier for innovation . competition. and productivity ) ff] 
报告 2 ,预测 大 数据 可 帮助 全 球 个 人 定位 服务 提供 商 增加 1000 亿美 元 收入 ; 帮助 欧洲 公共 
部 门 每 年 提升 2500 亿美 元 产值 ; 帮助 美国 医疗 保健 行业 每 年 提升 3000 亿美 元 产值 ,帮助 
美国 零售 业 获得 60% 以 上 的 净利 润 增长 。 

2012 年 年 初 ,瑞士 达 沃 斯 论坛 题 为 (大 数据 ,大 影响 )(Big Data ,Big Impact ) 的 报告 宣 
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称 数据 已 经 成 为 一 种 新 的 经 济 资产 类 别 ,就 像 货币 或 黄金 一 样 c” 。 
国际 咨询 机 构 Gartner 在 2012 年 发 布 (2012 一 2013 年 技术 曲线 成 熟 度 报告 ,把 大 数据 
计算 与 社交 分 析 、 内 存 驻 存 数据 分 析 一 起 列 为 最 值得 关注 的 48 项 新 兴 技 术 ( 见 图 1-12) 。 
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图 1-12 Gartner 2012—2013 技术 曲线 成 熟 度 


《华尔街 日 报 ) 在 2012 年 2 H 22 日 题 为 (科技 变革 即将 引领 新 的 经 济 繁荣 ) 的 文章 中 更 
大 胆 预 测 “ 我 们 再 次 处 于 三 场 宏 大 技术 变革 的 开端 ,它们 可 能 足以 匹敌 20 世纪 的 那 场 变革 ， 
这 三 场 变革 的 震中 都 在 美国 ,它们 分 别 是 大 数据 ,智能 制造 和 无 线 网 络 革命 。” 

2. 政府 层面 的 政策 

美国 和 欧洲 一 些 发 达 国 家 政府 都 从 国家 战略 层面 提出 了 一 系列 的 大 数据 研发 计划 ,以 
推动 政府 机 构 、 重 要 行业 、 学 术 界 和 工业 界 对 大 数据 技术 的 探索 研究 和 应 用 。 

早 在 2010 年 12 月 ,美国 白宫 下 属 的 总 统 科 技 顾问 委员 会 (PCAST) 和 信息 技术 咨询 委 
员 会 (PITAC) 即 向 奥巴马 和 国会 提交 了 一 份 (规划 数字 化 未 来 %5 的 研究 报告 ,把 大 数据 收 
集 和 使 用 提升 到 体现 国家 意志 的 战略 高 度 。 报 告 列 举 了 5 个 贯穿 各 个 科技 领域 的 共同 挑 
战 ,而 第 一 个 最 重大 的 挑战 就 是 “数据 "问题 。 报 告 指出 “如 何 收集 ,保存 ,管理 ,分 析 、 共 享 正 
在 呈 指 数 增长 的 数据 是 我 们 必须 面 对 的 一 个 重要 挑战 "。 报 告 建议 :“ 联 邦 政府 的 每 一 个 机 
构 和 部 门 ,都 需要 制定 一 个 “大 数据 的 战略 ”。2012 年 3 月 ,前 美国 总 统 奥巴马 签署 并 发 布 
了 一 个 “大 数据 研究 发 展 创新 计划 ”(Big Data R & D Initiative) ?9 , di 6 个 美国 联邦 政府 机 
构 ( 国 家 自然 基金 会 (NSF) .国家 卫生 研究 院 (NIH) 、 能 源 部 (DOE)、 国 防 部 (DOD)、 国 防 部 
高 级 研究 计划 局 (DARPA) 美国 地 质 勘 探 局 (USGS)) 联 合 承担 ,初步 投资 两 亿美 元 启动 大 
数据 技术 研发 。 其 中 已 启动 的 研究 项 目 如 下 。 
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国防 部 高 级 研究 计划 局 (DARPA) 的 多 尺度 异常 检测 (ADAMS) 项 目 , 解 决 现实 世界 环 
境 中 各 种 可 操作 的 信息 数据 及 线索 的 收集 ,以 及 大 规模 数据 集 的 异常 检测 和 特征 化 问题 ; 
网 络 内 部 威胁 CCINDER) 研 究 计划 ,主要 解决 目前 情报 监视 和 侦察 系统 的 不 足 , 进 行 自动 化 
和 人 机 集成 推理 ,使 得 能 够 提前 对 时 间 敏 感 的 更 大 潜在 威胁 进行 分 析 , 并 开发 新 的 方法 来 扎 
踪 军 事 计 算 机 网 络 与 网 络 间谍 活动 ,CINDER 将 适用 于 将 不 同类 型 的 侵入 活动 统一 成 标准 
的 内 部 网 络 活动 , 旨 在 提高 对 网 络 威胁 检测 的 准确 性 和 速度 ; 视频 和 图 像 的 检索 和 分 析 工 
具 (VIRAT) 计 划 旨 在 开发 一 个 能 够 利用 军事 图 像 分 析 员 收集 的 数据 进行 大 规模 的 军事 图 
像 分 析 系 统 , 使 分 析 员 能 够 在 相关 活动 发 生 时 发 出 警报 ; XDATA 项 目 则 计划 开发 用 于 分 
析 大 量 的 半 结 构 化 和 非 结 构 化 数据 的 计算 技术 和 软件 工具 ,其 核心 挑战 包括 可 伸缩 的 算法 
在 分 布 式 数据 存储 上 的 应 用 、 如 何 使 人 机 交互 工具 能 够 有 效 地 对 不 同 数据 进行 视觉 化 处 理 ， 
以 及 开源 软件 工具 在 处 理 国防 大 数据 中 的 灵活 运用 。 

国土 安全 部 (DHS) 则 启动 了 可 视 化 数据 分 析 项 目 (CVADA), 由 罗 格 斯 大 学 和 普 渡 大 
学 以 及 另外 三 所 大 学 的 研究 人 员 合 作 承 担 , 目 的 在 于 通过 对 大 量 异 构 数 据 的 分 析 ,使 得 安全 
应 急 人 员 可 以 发 现 人 为 或 自然 灾害 以 及 忍 怖 事件 ,以 及 边境 安全 问题 。 

能 源 部 (DOE) 基 础 能 源 科学 办 公 室 (BES) 则 启动 了 加 速 数据 采集 、 处 理 和 分 析 项 目 
(ADARA) ,提供 散 裂 中 子 源 (SNS) 的 数据 系统 的 实时 分 析 能 力 ,满足 实验 控制 的 工作 流程 
需要 ,并 已 经 建立 X 射线 影像 资料 库 , 最 大 限度 地 提高 数据 的 可 用 性 。 

美国 宇航 局 (NASA) 的 先进 信息 系统 技术 项 目 (AIST), 旨 在 降低 美国 宇航 局 信息 系统 
的 风险 和 成 本 ,以 支持 未 来 的 地 球 观 测 任务 ,并 转化 成 美国 宇航 局 气候 中 心 的 地 理 信 息 。 
AIST 的 技术 方案 寻求 成 熟 的 大 数据 计算 能 力 ,以 减少 地 球 科学 部 空 基 和 陆 基 信息 系统 的 
风险 .成 本 和 开发 时 间 ,提高 地 球 科学 大 数据 的 获取 和 使 用 。 

国家 卫生 研究 院 (NIH) 的 癌症 基因 组 图 谱 项 目 (TCGA) 项 目 通 过 包括 大 规模 基因 组 测 
序 及 基因 组 分 析 技 术 的 应 用 ,加 速 对 癌症 的 分 子 生物 学 机 理 的 认识 。 随 着 大 规模 基因 组 技 
术 的 快速 发 展 ,TCGA 项 目 到 2014 年 就 已 积累 了 几 个 PB 的 原始 数据 ,随后 的 基因 图 谱 数 
据 将 继续 增长 。 

作为 大 数据 的 策 源 地 和 引领 者 ,美国 在 2014 年 5 月 更 进一步 发 布 了 《大 数据 : 把 握 机 
遇 , 守 护 价值 ?白皮书 "9 ,对 美国 目前 大 数据 应 用 与 管理 的 现状 ,政策 框架 和 改进 建议 进行 
了 集中 阐述 。 该 白皮书 表示 ,在 大 数据 发 挥 正面 价值 的 同时 ,应 该 警惕 大 数据 应 用 对 隐私 、 
公平 等 长 远 价值 带 来 的 负面 影响 。 从 《白皮书 》 所 代表 的 价值 判断 来 看 ,美国 政府 更 为 看 重 
大 数据 为 经 济 社会 发 展 所 带 来 的 创新 动力 ,对 于 可 能 与 隐私 权 产 生 的 冲突 , 则 以 解决 问题 的 
态度 来 处 理 。 

报告 最 后 提出 以 下 6 点 建议 。 

CD 推进 消费 者 隐私 法 案 ; 

(2) 通过 全 国 数据 泄露 立法 ; 

CD 将 隐私 保护 对 象 扩展 到 非 美 国 公民 ; 

(4) 对 在 校 学 生 的 数据 采集 仅 应 用 于 教育 目的 ; 

(5) 在 反 歧 视 方面 投入 更 多 专家 资源 ; 

(6) 修订 电子 通信 隐私 法 案 。 

英国 政府 是 大 数据 的 积极 拥抱 者 。 早 在 2011 年 11 月 ,英国 政府 就 发 布 了 对 公开 数据 
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进行 研究 的 战略 政策 。 英 国 将 大 数据 列 为 战略 性 技术 ,给予 高 度 关注 。 英 国政 府 紧 随 美国 
之 后 ,推出 一 系列 支持 大 数据 发 展 举措 。 首 先是 给 予 研发 资金 支持 。 英 国政 府 通过 利用 和 
挖掘 公开 数据 的 商业 潜力 ,为 英国 公共 部 门 ,学 术 机 构 等 方面 的 创新 发 展 提供 “孵化 环境 ”， 
同时 为 国家 可 持续 发 展 政策 提供 进一步 的 帮助 。2013 年 1 月 ,英国 政府 向 航天 、 医 药 等 8 
类 高 新 技术 领域 注资 6 亿 英 镑 研发 经 费 , 其 中 大 数据 技术 获得 1. 89 亿 英镑 的 资金 ,是 获得 
资金 最 多 的 领域 。 

其 次 是 促进 政府 和 公共 领域 的 大 数据 应 用 。 为 了 便于 公众 理解 和 判断 ,英国 政府 专门 
建立 了 “数据 英国 ”网 站 (http://data. gov. uk) ,将 公众 关心 的 政府 开支 .财务 报告 等 数据 整 
理 汇 总 并 发 布 在 互联 网 上 ,并 对 其 中 的 热点 议题 和 重要 开支 进行 进一步 曾 释 ,还 对 公众 意见 
进行 反馈 。 其 效果 也 是 明显 的 , 据 测 算 , 通 过 合理 、 高 效 地 使 用 大 数据 技术 ,英国 政府 每 年 可 
节省 约 330 亿 英 镑 ,相当 于 英国 每 人 每 年 节省 约 500 英镑 。 

澳大利亚 是 理念 与 行动 同时 践 行 , 自 2009 年 起 开始 积极 推动 开放 数据 的 理念 和 行动 践 
行 ,并 公开 政府 的 愿景 和 目标 。data. gov. au 是 政府 信息 目录 的 开放 数据 平台 ,用 户 可 以 在 
该 网 站 上 方便 地 搜索 ,浏览 和 使 用 澳 政 府 国家 、 地 区 政府 的 公共 数据 。 澳 大 利 亚 政府 通过 5 
个 阶段 将 数据 开放 流程 化 ,这 5 个 阶段 依次 是 : 发 现 数据 ,过 程 处 理 ,授权 许可 ,数据 发 布 ， 
数据 完善 。2013 年 8 月 ,澳大利亚 政府 信息 管理 办 公 室 发 布 了 《公共 服务 大 数据 战略 站 ER 
在 推动 公共 行业 利用 大 数据 分 析 进 行 服务 改革 ,制定 更 好 的 公共 政策 ,保护 公民 隐私 ,使 澳 大 
利 亚 在 该 领域 跻身 全 球 领先 水 平 。 

2012 年 7 月 ,联合 国 在 纽约 发 布 了 一 本 关于 大 数据 政务 的 白皮书 (大 数据 促 发 展 : 挑战 
HPBO ,全 球 大 数据 的 研究 和 发 展 进入 了 前 所 未 有 的 高 潮 。 这 本 白皮书 总 结 了 各 国政 
府 如 何 利用 大 数据 响应 社会 需求 ,指导 经 济 运行 ,更 好 地 为 民众 服务 ,并 建议 成 员 国 建立 “ 脉 
搏 实验 室 ”(Pulse Labs) ,挖掘 大 数据 的 潜在 价值 。 图 1-13 为 联合 国 报告 描绘 的 大 数据 应 用 
的 生态 系统 。 
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图 1-13 联合 国 关于 大 数据 应 用 的 生态 系统 
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在 中 国 , 早 在 2010 年 12 月 工信部 发 布 的 物 联网 “十 二 五 ?规划 中 所 ,信息 处 理 技术 作 
为 4 项 关键 技术 创新 工程 之 一 被 提出 ,其 中 包括 海量 数据 存储 、 数 据 挖掘 .图 像 视频 智能 分 
析 等 技术 ,这 都 是 大 数据 计算 的 重要 组 成 部 分 。2014 4E 3 月 ,李克强 总 理 在 十 二 届 全 国人 
大 二 次 会 议 的 《政府 工作 报告 四 中 提出 要 设立 新 兴 产 业 创 业 创新 平台 ,在 新 一 代 移动 通 
信 、 集 成 电路 ,大 数据 先进 制造 .新 能 源 、. 新 材料 等 方面 赶 超 先进 ,引领 未 来 产业 发 展 。 这 是 
“大 数据 ?首次 进入 政府 工作 报告 ,也 表明 其 作为 一 种 新 兴 产 业 , 将 得 到 国家 层面 的 大 力促 
进 。2015 年 9 月 ,经 李克强 总 理 签署 ,国务 院 印 发 (促进 大 数据 发 展 行动 纲要》 ,对 大 数据 
开放 应 用 等 工作 提出 指导 意见 。 其 中 提 到 ,2018 年 年 底 前 将 建成 国家 政府 数据 统一 开放 平 
台 。2020 年 年 底 前 ,逐步 实现 信 和 用、 交通、 医疗、 卫生、 就业、 社保 、 地 理 \ 文 化 .教育 .科技 、 资 
源 , 农 业 \ 环 境 , 安 监 金 融 , 质 量 、 统 计 、 气 象 海 洋 , 企 业 登 记 监 管 等 民生 保障 服务 相关 领域 
的 政府 数据 集 ,向 社会 开放 。 


1.3 大 数据 技术 特征 


从 前 面 对 数据 科学 的 讨论 中 可 以 看 出 ,大 数据 计算 采用 的 方法 和 技术 主要 来 自 于 数学 
统计 学 和 计算 机 科学 ,这 包括 数据 建 模 ,数据 抽取 与 清洗 、 统 计 分 析 方 法 数据 存储 系统 、 分 
布 式 计算 体系 、 计 算 模型 与 算法 、 数 据 库 技术 、 数 据 安全 性 ,数据 可 视 化 等 领域 (图 1-14) 。 
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图 1-14 大 数据 相关 技术 


但 实际 上 ,大 数据 的 4V 特性 使 得 它 的 计算 分 析 在 方法 和 技术 层面 又 区 别 于 经 典 统计 
学 和 传统 计算 体系 ,具有 其 独 有 特点 和 技术 特征 。 下 面 从 数据 模型 算法、 计算 技术 几 个 方 
面 来 讨论 大 数据 计算 与 经 典 统计 学 和 传统 计算 体系 的 差别 ,这 对 于 学 习 大 数据 计算 技术 、 建 
立 相 关 概 念 是 非常 重要 的 。 

与 传统 数学 统计 学 比较 ,大 数据 计算 在 模型 和 方法 上 具有 以 下 几 点 根本 区 别 。 

(1) 传统 统计 学 是 对 样本 空间 基于 独立 同 分 布 原 理 随机 抽取 一 个 样本 集 进行 统计 分 
析 , 而 大 数据 计算 是 以 样本 空间 整体 或 完整 数据 集 (也 可 能 不 是 完整 数据 集 ,而 只 是 研究 者 
手中 现在 掌握 的 全 部 数据 ) 作 为 计算 对 象 。 

对 于 随机 抽取 的 样本 集 ,美国 数据 科学 家 Rachel Shutt 和 Cathy O'Neil 论述 道中 “所 谓 
样本 ,是 指 在 总 体 中 选取 的 一 个 子 集 ,用 nn 来 表示 。 研 究 者 记录 下 样本 的 观察 数据 ,根据 样 
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本 特征 推断 总 体 的 情况 。 采 样 的 方法 多 种 多 样 ,有 些 采 样 方法 会 存在 偏差 ,使 得 样本 失真 ， 
而 不 能 被 视 为 一 个 缩小 版 的 总 体 , 去 推断 总 体 的 特征 。 当 这 种 情况 发 生 时 ,基于 样本 分 析 所 
推断 出 来 的 结论 常常 是 失真 或 完全 错误 的 ”这 表明 传统 统计 分 析 方 法 的 正确 性 和 可 信 性 很 
大 程度 上 依赖 于 所 选取 样本 集 对 整个 样本 空间 的 代表 性 ,而 这 不 是 一 个 容易 完成 的 任务 。 

(2) 大 数据 计算 可 以 处 理 整个 数据 集 (或 研究 者 手中 现在 掌握 的 全 部 数据 ) ,这 就 避免 
了 只 计算 一 个 数据 子 集 (样本 集 ) 带 来 的 缺陷 ,而 可 以 专注 于 改进 计算 模型 和 算法 ,以 提高 计 
算 结 果 的 准确 性 、 可 靠 性 。 

(3) 传统 统计 分 析 所 采用 的 计算 公式 或 方法 是 固定 的 , 即 统计 学 家 首先 建立 一 个 确定 
的 数学 模型 ,再 通过 选 定 的 样本 集 测 算 模型 的 参数 ,然后 用 这 个 模型 去 预测 总 体 空间 的 结 
果 。 在 这 一 计算 推测 过 程 中 ,所 采用 的 数学 模型 是 确定 的 、 不 变 的 。 

大 数据 计算 则 主要 采用 机 器 学 习 方 法 ,其 特点 是 预测 结果 的 精度 改进 是 一 个 动态 过 程 ， 
需要 一 定 规模 的 数据 计算 来 训练 和 改进 预测 算法 ,这 与 统计 学 一 开始 就 确定 数学 模型 不 同 。 
具体 而 言 ,机 器 学 习 是 从 输入 数据 集 学 习 或 训练 预测 算法 ,通过 训练 数据 集 的 大 量 计算 来 改 
进 预测 算法 的 性 能 ,使 其 逐步 逼近 正确 的 结果 。 这 一 过 程 中 另 有 一 个 学 习 算 法 来 控制 对 预 
测 模型 的 改进 和 测试 。 显 然 , 大 数据 计算 更 看 重 预测 算法 的 输出 结果 ,并 通过 训练 数据 集 的 
反复 迭代 计算 来 提高 预测 输出 结果 的 精度 。 

大 数据 计算 系统 与 传统 数据 库 系统 的 差别 如 下 。 

(1) 传统 的 关系 型 数据 库 系 统 (RDBS) 主 要 围绕 关系 型 模型 构建 ,数据 存储 采用 基于 主 
键 的 行 存储 格式 ,一 个 SQL 查询 会 涉及 多 个 (在 大 型 数据 库 中 会 达到 数 百 个 ) 表 单 ,这 就 限 
制 了 关系 型 数据 库 处 理 超大 规模 数据 的 能 力 , 因 为 几 十 到 数 百 个 表单 的 连接 是 一 个 非常 耗 
时 的 操作 。 关 系 型 数据 库 遇 到 的 另 一 个 挑战 是 大 量 非 结构 性 或 异 构 数 据 的 处 理 , 关 系 型 模 
型 在 构建 这 些 没有 统一 数据 格式 的 表格 时 会 遇 到 很 大 困难 。 在 医疗 卫生 信息 系统 ,可 以 看 
到 大 量 的 这 类 非 结 构 性 或 异 构 型 数据 类 型 ,比如 既 有 文字 ,又 有 音频 /视频 ,还 有 各 种 格式 的 
医学 影像 图 片 资料 等 。 另 外 ,尽管 现代 关系 型 数据 库 产品 也 支持 分 布 式 部 署 和 计算 ,但 关系 
型 关联 模型 的 特点 决定 了 多 数 情况 下 仍然 是 集中 部 署 ,在 支持 分 布 式 计算 时 进行 数据 集 划 
分 和 数据 同步 都 是 高 成 本 的 开销 。 

大 数据 计算 采用 的 是 分 布 式 文件 系统 及 在 此 基础 上 构建 的 NoSQL 非 关 系 型 数据 库 , 通 
常会 在 原始 数据 文件 之 上 建立 相关 的 索引 表 , 采 用 哈 希 表 映射 方法 来 支持 快速 查询 。 由 于 
NoSQL 数据 库 在 原始 数据 存储 文件 ( 非 结构 化 . 异 构 数 据 ) 之 上 构建 了 统一 格式 的 索引 表 
(或 检索 目录 数据 库 ) ,因此 能 够 很 好 地 支持 非 结构 化 或 异 构 数据 的 存储 和 处 理 。 分 布 式 数 
据 库 的 特点 也 能 够 很 好 地 支持 分 布 式 系统 部 署 ,对 超大 规模 数据 集 完成 快速 查询 操作 。 

(2) 关系 型 数据 库 采 用 的 是 基于 主键 的 行 存储 格式 ,数据 的 存储 是 围绕 数据 最 重要 的 
一 个 属性 (通常 定义 为 主键 ) 来 构建 ,这 比较 有 利于 对 数据 个 体 ( 或 单条 数据 记录 ) 的 计算 处 
理 。 比 如 ,在 学 校 信息 系统 中 ,基于 学 生 的 学 号 (主键 ) 来 存储 一 个 学 生 的 完整 信息 (姓名 、 年 
龄 性别、 专业 .课程 成 绩 等 ) 就 有 利于 一 次 查 取 获得 该 学 生 的 全 部 信息 ,有 利于 个 体 数据 处 
理 。 但 这 种 存储 模式 不 利于 对 一 个 超大 规模 数据 集 所 有 记录 的 某 一 数据 特征 值 的 提取 。 比 
如 , 某 一 大 学 有 三 万 学 生 , 假 设 学 生 总 数 为 N, 此 时 N=30 000; 一 个 学 生 记 录 在 数据 库 中 
包含 50 个 值 域 (姓名 ,年龄 性别、 专 业 、 课 程 成 绩 ……) ,假设 值 域 数 为 mw, 此 时 m—50. 1n 
果 需 要 从 数据 库 中 搜 出 并 计算 某 一 专业 学 生 ( 含 不 同年 级 ) 某 一 门 课 的 平均 成 绩 , 关 系 型 数 
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据 库 需要 完成 两 步 操作 : 四 先 从 数据 库 总 表 中 搜 出 满足 上 述 条 件 的 学 生 记录 ,操作 次 数 是 
O(N) 量 级 ; @ 再 对 搜 出 的 每 一 条 学 生 记 录 完 成 该 门 课程 成 绩 的 读 取 ,操作 次 数 是 OCHO 。 
可 以 知道 ,完成 该 计算 任务 的 总 操作 次 数 为 O(N) XO(m) 量 级 ,最 坏 情况 下 需要 操作 
30 000X50 王 1 500 000 次 ! 

而 NoSQL 数据 库 采 用 的 是 基于 键 值 对 的 列 存储 格式 。 针 对 上 面 同 一 问题 ,NoSQL 数 
据 库 是 把 学 生 记录 的 属性 归 类 进行 存储 。 比 如 ,所 有 学 生 的 成 绩 都 存 人 树 状 结构 的 某 一 分 
支 (不同 课 程 的 成 绩 进 入 更 低层 的 分 支 )。 假 设 该 校 共 开 出 2000 门 课 , 全 校 共 有 100 个 专 
业 , 每 个 专业 学 生 人 数 最 多 为 1000。NoSQL 数据 库 首 先 会 搜索 进入 该 门 课 的 分 支 ( 最 坏 情 
况 下 查询 次 数 2000) ,然后 在 该 分 支 内 搜索 该 专业 (最 多 查询 次 数 100) ,然后 完成 符合 条 件 
的 学 生成 绩 的 读 取 ( 最 多 读 取 1000 次 ) ,这 样 ,总 的 操作 次 数 为 2000 十 100 十 1000 = 3100 
次 。 与 关系 型 数据 库 比 较 ,同样 的 计算 任务 , NoSQL 数据 库 的 总 查询 次 数 仅 为 前 者 的 
1/484, 这 充分 体现 了 基于 列 存储 的 非 关系 型 数据 库 在 处 理 大 规模 数据 上 的 优势 。 

另外 ,适用 于 大 数据 分 析 的 MapReduce 计算 模型 . 流 计算 模型 .图 并 行 计算 模型 都 更 适 
合 匹 配 非 关系 型 数据 库 。 因 此 ,不管 是 列 存储 格式 展示 的 查询 效率 或 是 对 计算 模型 的 支持 
上 ,大 数据 计算 模式 都 更 具有 优势 。 

大 数据 计算 架构 与 传统 软件 开发 技术 的 差别 如 下 。 

与 传统 软件 开发 技术 比较 ,大 数据 计算 架构 与 其 最 重要 的 差别 是 : 传统 软件 开发 技术 
是 平台 相关 的 、 呈 直线 型 模式 ; 而 大 数据 系统 开发 更 倾向 于 采用 开放 标准 和 开放 式 架 构 , 其 
技术 架构 呈 分 层 模式 ,如 图 1-15 所 示 。 
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图 1-15 技术 架构 比较 : 大 数据 vs. 传统 架构 


对 比 图 1-15 两 种 技术 架构 可 看 出 : 传统 技术 架构 是 基于 某 一 平台 和 某 一 标准 的 线性 
结构 , 即 整个 技术 架构 是 围绕 一 个 单一 的 开发 技术 和 平台 标准 来 构造 的 。 比 如 基于 微软 的 
架构 主要 就 是 基于 Windows 操作 系统 以 及 微软 的 一 系列 开发 技术 (NTFS、FAT32 文件 系 
统 、. NET 开发 工具 包 、C# 编 程 语言 ,MS SQL Server 数据 库 等 ) 来 实现 。 不 排除 微软 平台 
现在 也 试图 兼容 一 些 不 同 技术 ,但 基本 特点 是 围绕 微软 自己 独 有 技术 和 标准 来 进行 开发 。 
另 一 例子 就 是 芋 果 公司 (Apple Inc. ) 的 产品 线 , 完 全 是 基于 自己 特有 的 Mac OS XViOS/ 
Cocoa/XCode/Objective-C 技术 架构 来 开发 ,对 其 他 标准 和 技术 的 兼容 性 很 差 。 
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而 大 数据 计算 的 技术 架构 则 呈现 一 种 多 层次 的 分 层 结构 , 即 大 数据 采用 的 技术 和 标准 


是 按照 其 功能 和 作用 分 别 纳入 不 同 的 层级 (在 图 1-15 中 分 为 硬件 层 、 操 作 系统 层 ,平台 层 、 
数据 库 层 ,应 用 层 ) ,而 在 每 一 个 层级 上 ,大 数据 计算 兼容 水 平方 向 扩展 的 多 种 技术 和 标准 ， 
而 不 是 绑 定 于 某 一 种 特定 技术 。 比 如 ,在 硬件 层 , 大 数据 计算 可 采用 英特尔 处 理 器 .AMD 
芯片 或 PowerPC 处 理 器 ; 在 操作 系统 层面 ,可 以 Linux, UNIX, Windows 共存 ; 在 平台 层 ， 
可 以 选用 开源 平台 Hadoop、Spark、Cloudera, 也 可 选用 商业 平台 Google 的 Dremel/Pregel/ 
PowerDrill 或 是 微软 的 Azure PR; 在 数据 库 层面 和 应 用 开发 层面 也 是 如 此 。 


可 以 看 出 ,大 数据 计算 需要 处 理 数据 类 型 和 数据 源 的 复杂 性 和 大 数据 应 用 的 多 样 性 , 决 


定 了 大 数据 技术 更 多 倾向 于 采用 开放 式 标 准 和 开放 式 架 构 (Open Standard and Open 
Architecture) ,在 同一 平台 上 尽 可 能 多 地 兼容 或 集成 不 同 的 软件 开发 工具 ,这 不 是 一 个 容易 
完成 的 任务 。 目 前 的 大 数据 技术 架构 大 致 分 为 商业 技术 和 开源 技术 两 条 主线 ,从 技术 架构 
的 可 扩展 性 兼容 性 、 跨 平台 移植 性 而 言 , 基 于 开放 标准 的 开源 技术 具有 更 好 的 前 景 。 
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务 院 . 促进 大 数据 发 展 行动 纲要 . 成 组 技术 与 生产 现代 化 , 2015. 32(3): 51-58. 
习题 


1. 数据 ,信息 、 知 识 与 价值 这 4 个 词 在 信息 科学 中 既 相 关联 ,又 具有 不 同 的 含义 。 请 举 
例 说 明 4 个 概念 的 关联 与 区 别 。 

2. 数据 科学 家 的 主要 知识 技能 包括 哪 几 方 面 ? 

3. 阐述 大 数据 的 4 大 基本 特征 。 

4. 大 数据 计算 与 传统 统计 学 方法 有 何 差 别 ? 

5. 大 数据 计算 系统 与 传统 数据 库 系统 有 何 区 别 ? 











2.1 大 数据 计算 架构 


大 数据 计算 系统 涉及 软件 分 层 化 .技术 复杂 应 用 繁多 ,但 究 其 本 质 可 归纳 为 三 个 基本 
系统 : 数据 存储 系统 数据 处 理 系 统 .数据 应 用 系统 。 图 2-1 给 出 了 基于 上 述 三 个 系统 的 大 
数据 计算 总 体 框架 。 

总 体 框架 图 的 每 一 层 内 又 包括 提供 不 同 功 能 服务 的 
子 系统 或 模块 ,包含 不 同 的 技术 架构 与 技术 标准 ,图 2-2 给 

4 出 了 计算 系统 的 更 多 细节 。 

数据 处 理 系统 数据 存储 系统 包括 数据 采集 层 (系统 日 志 、 网 络 疏 虫 、 
——— 无 线 传感器 网 络 , 物 联网 ,以 及 各 种 数据 源 ) ,数据 清洗 、 抽 
| menan f 取 与 建 模 ( 将 各 种 类 型 的 结构 化 、 非 结构 化 . 异 构 数 据 转化 

Boa 大 数据 计算 总 体 框架 ”为 标准 存储 格式 数据 ,并 定义 数据 属性 及 值 域 ) ,数据 存储 

架构 (集中 式 或 分 布 式 文件 系统 、 关 系 型 数据 库 或 分 布 式 
数据 库 \ 行 存储 数据 结构 或 列 存 储 数 据 结 构 . 键 值 对 结构 , 哈 希 表 (Hash Table) 检 索 等 )。 
数据 存储 架构 是 大 数据 计算 的 基础 .上 层 各 种 分 析 算 法 、 计 算 模型 及 计算 性 能 都 依赖 于 数据 
存储 系统 的 表现 ,因此 ,数据 存储 系统 是 大 数据 研究 的 一 个 重要 领域 。 

数据 处 理 系统 包括 针对 不 同类 型 数据 的 计算 模型 ,如 针对 非 结 构 化 数据 的 MapReduce 
批 处 理 模 型 中 针对 动态 数据 流 的 流 计 算 (Stream Computing) 模 型 中 针对 结构 化 数据 的 大 
规模 并 发 处 理 (MPP) 模 型 器 .基于 物理 大 内 存 的 高 性 能 内 存 计算 (In-memory Computing? 
模型 中 ); 针对 应 用 需求 的 各 类 数据 分 析 算 法 (回归 分 析 、 聚 合算 法 、 关 联 规则 算法 、 决 策 树 
算法 、 贝 叶 斯 分 析 、 机 器 学 习 算 法 等 ); 提供 数据 计算 处 理 各 种 开发 工具 包 和 运行 支持 环境 
的 计算 平台 ,如 Hadoop? ,Spark/" Storm 等 。 目 前 ,商业 公司 如 Google, IBM, Oracle, f 
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Ek SAP 等 都 提供 各 自 的 大 数据 计算 平台 和 相关 技术 ; 开源 社区 则 提供 基于 Hadoop 平台 
的 一 整套 支持 大 数据 计算 及 应 用 的 开放 式 架构 和 技术 标准 。 

数据 应 用 系统 则 是 基于 上 述 存储 系统 和 计算 处 理 平台 提供 各 行业 各 领域 的 大 数据 应 用 
技术 解决 方案 。 目 前 ,互联 网 ,电子 商务 .电子 政务 .金融 ,电信 、 医 疗 卫生 等 行业 是 大 数据 应 
用 最 热门 的 领域 ,而 制造 业 ,教育 能 源 、 环 保 则 是 大 数据 技术 即将 或 已 经 开始 拓展 的 行业 。 
在 中 国 , 大 数据 分 析 与 云 计算 系统 、 物 联网 应 用 相 结 合 , 为 中 国 21 世纪 传统 产业 的 升级 和 转 
入 互联 网 时 代 提 供 了 有 力 的 技术 支撑 。 














计算 模型 与 算法 























系统 














图 2-2 大 数据 分 层 计 算 体 系 


2.2 数据 存储 系统 


数据 存储 系统 主要 提供 数据 采集 、 清 洗 建 模 、 大 规模 数据 存储 管理 数据 操作 (添加 、 删 
减 、 查 询 、 更 新 ,数据 同步 ) 等 功能 。 由 于 大 数据 处 理 的 多 重 数据 源 ,数据 异 构 性 、 非 结构 化 数 
据 、 分 布 式 计算 环境 等 特点 ,大 数据 存储 系统 的 设计 远 较 传 统 的 关系 型 数据 库 系统 复杂 。 目 
前 的 大 数据 存储 架构 主要 由 数据 层 、 分 布 式 文件 系统 , 非 关系 型 数据 库 (NoSQL) ,以 及 统一 
数据 读 取 界面 组 成 有 些 设计 中 还 会 在 NoSQL 数据 库 之 上 加 一 个 提供 数据 挖掘 和 分 析 功 
能 的 数据 仓库 层 ,如 图 2-3 所 示 。 


2.2.1 数据 清洗 与 建 模 


数据 层 主要 包含 数据 采集 系统 并 提供 数据 抽取 、 清 洗 与 转换 (Extraction、Transform 
and Load.ETLO ,数据 建 模 的 功能 。 大 数据 应 用 面 对 的 多 种 数据 源 ( 企 业 数 据 、 商 务 数据 个 
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人 社交 数据 政府 统计 数据 、 互 联网 数据 \、 物 联网 数据 、 系 统 日 志 数 据 、 基 因 测 序数 据 、 大 气 物 
理 监 测 数 据 、 地 球 卫星 观测 数据 等 )、 异 构 型 数据 (文字 图片. 音频 、 视 频 ) 、 非 结构 型 数据 ( 医 
学 影像 资料 ,银行 凭证 扫描 件 \ 碎 片 化 的 通信 记录 、 截 屏 图 等 ) 的 特点 使 得 原始 数据 很 难 直 接 
存 人 数据 库 , 经 常 遇 到 的 问题 是 原始 数据 的 格式 不 能 被 数据 处 理 平台 识别 和 处 理 , 很 多 情况 
下 原始 数据 还 存在 记录 缺失、 值 域 缺损 数据 质量 参差 不 齐 等 问题 。 这 就 要 求 在 构建 数据 库 
或 数据 仓库 之 前 对 原始 数据 完成 清洗 (合并 或 去 除 重复 数据 项 ,消除 数据 错误 ) .抽取 (从 多 
个 数据 源 的 数据 项 中 抽取 不 同 值 域 构 成 目标 数据 库 的 数据 结构 ,或 从 一 个 数据 源 抽取 数据 
项 分 解 成 多 个 结构 装载 入 目标 数据 库 ) ,转换 (将 不 同 格式 的 原始 数据 项 转换 为 统一 标准 的 目 
标 数据 库 格 式 ) 等 步骤 。 数 据 的 抽取 、 清 洗 和 转换 可 以 是 人 工 或 采用 软件 工具 的 方式 完成 ， 
常见 的 ETL 工具 有 : OWB (Oracle Warehouse Builder), ODI (Oracle Data Integrator), 
Informatic PowerCenter, AICloudETL, DataStage, Repository Explorer 等 ,开源 的 工具 有 
Eclipse 的 etl 插件 。 
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图 2-3 大 数据 存储 架构 


数据 建 模 也 是 数据 层 工 作 的 一 个 重要 内 容 。 数 据 建 模 是 对 实体 数据 (或 用 户 对 数据 功 
能 的 描述 ) 建 立 一 个 抽象 模型 ,包括 元 数据 \ 数 据 结 构 、 属 性 、 值 域 .关联 关系 一致 性 、 时 效 性 
等 元 素 。 数 据 模型 为 进一步 的 数据 存储 结构 设计 数据 库 设计 和 计算 模型 提供 了 参考 依据 。 

美国 国家 标准 学 会 (American National Standards Institute. ANSI) 把 数据 模型 定义 为 
三 个 层次 加 : 概念 模型 逻辑 模型 和 物理 模型 。 

概念 模型 主要 基于 用 户 的 数据 功能 需求 产生 ,通过 与 客户 的 交流 获得 对 客户 业务 要 素 、 
功能 和 关联 关系 的 理解 ,从 而 定义 出 该 业务 领域 内 对 应 于 上 述 业 务 要 素 和 功能 的 实体 类 。 
概念 建 模 阶 段 并 不 拘泥 于 实体 的 实现 细节 或 存储 方式 ,重点 是 表达 能 够 反映 客户 数据 需求 
和 支撑 业务 流程 的 数据 实体 及 其 相互 间 的 关联 关系 。 

逻辑 模型 则 给 出 更 多 的 数据 实体 细节 ,包括 主键 、 外 键 、 属 性 、 索 引 、 关 系 、 约 束 其 至 是 视 
图 ,以 数据 表 、 数 据 列 、 值 域 ,面向 对 象 类 .XML 标签 等 形式 来 描述 。 在 有 些 建 模 实践 中 把 
概念 模型 与 逻辑 模型 合 为 一 个 模型 也 是 可 以 的 。 

物理 模型 (有 时 又 被 称 为 存储 模型 ) 则 是 考虑 数据 的 存储 实现 方式 ,包括 数据 拆 分 、 数 据 
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表 空 间 、 数 据 集成 。 有 的 数据 建 模 工具 (如 SparX Enterprise Architect?! ) 在 此 阶段 还 可 按 
照 上 述 逻 辑 模 型 生成 与 实体 对 应 的 SQL 代码 段 , 用 于 随后 的 数据 库 表格 设计 。 

ANSI 强调 ,上 述 三 个 层次 模型 之 间 是 相对 独立 的 , 即 物理 模型 的 改变 (数据 存储 方式 
改变 .数据 划分 调整 等 ) 不 影响 逻辑 模型 和 概念 模型 的 内 容 ; 逻辑 模型 的 改变 (数据 表 修 改 、 
属性 的 增 减 、 值 域 的 调整 等 ) 不 影响 概念 模型 的 定义 。 在 进行 数据 集成 和 数据 库 实 现时 ,要 
注意 三 个 层次 数据 模型 描述 和 定义 的 一 致 性 。 图 2-4 描述 了 商业 数据 的 建 模 和 集成 过 程 ， 
请 注意 右 侧 的 数据 建 模 流程 ( 带 底 色 图 标 ) 与 左 侧 的 业务 模型 步骤 的 对 应 关系 。 
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图 2-4 商务 数据 建 模 与 集成 流程 


UML 是 最 常用 的 数据 建 模 语 言 c9 ,常见 的 数据 建 模 工具 包括 PowerDesigner2 ,ER/ 
Studio"? ,CA ERwin'?! ,IBM 的 InfoSphere Data Architect!!! ,Sparx Enterprise Architect"? 4 , 


2.2.2 分 布 式 文件 系统 


数据 层 之 上 是 分 布 式 文件 系统 , 它 提 供 了 数据 的 物理 存储 架构 。 目 前 ,大 数据 计算 架构 
中 采用 的 最 主要 的 两 种 文件 系统 是 开源 社区 的 HDFSCHadoop Distributed File System) 
和 Google 的 GFS(Google File System)? (目前 已 演化 成 Colossus 系统 09 ) 。 

HDFS 采用 主 从 结构 ,一 个 HDFS 集群 包括 一 个 名 称 节点 (NameNode) 也 即 主 节点 ,以 
及 若干 个 数据 节点 (DataNode) 也 即 从 节点 ,如 图 2-5 所 示 。 名 称 节点 作为 中 心服 务 节点 , 负 
责 管理 文件 系统 的 命名 空间 数据 文件 到 数据 块 到 DataNode 的 映射 关系 ,以 及 客户 端 对 文 
件 的 访问 调度 。HDFS 中 还 有 一 个 次 名 称 节点 (Secondary NameNode) , 它 定 期 与 主 名 称 节 
点 连接 ,将 系统 目录 的 即时 映像 存储 在 本 地 磁盘 上 ,当主 名 称 节 点 失效 或 崩溃 时 ,次 名 称 节 
点 可 以 提供 名 称 节 点 的 回 滚 回复 或 重启 功能 。 

在 HDFS 中 ,每 个 存储 文件 首先 被 划分 为 固定 长 度 (64MB) 的 多 个 数据 块 ,然后 这 些 数 
据 块 按照 一 定 法 则 分 布 存储 到 不 同 的 DataNode 上 ,这 意味 着 一 个 DataNode 可 以 存储 来 自 
不 同文 件 的 数据 块 。 每 个 数据 节点 都 运行 一 个 节点 程序 或 进程 ,负责 处 理 文件 系统 客户 端 
的 读 / 写 请 求 ,在 名 称 节 点 的 统一 调度 下 进行 数据 块 的 创建 .删除 和 复制 等 操作 。 主 节点 
(NameNode) 与 从 节点 (NameNode) 各 自 执行 的 任务 见 表 2-1. 
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Æ 2-5 HDFS 体系 结构 


表 2-1 HDFS 系统 主 ,从 节点 任务 











名 称 节点 (NameNode) 数据 节点 (DataNode) 
管理 文件 系统 命名 空间 存储 文件 数据 块 
保存 文件 到 数据 块 到 数据 节点 的 映射 关系 实现 数据 块 到 数据 节点 本 地 文件 系统 的 映射 
调度 客户 端 对 文件 的 访问 数据 块 存储 在 本 地 磁盘 上 








元 数据 存储 在 内 存 中 ,便于 快速 访问 


Google 的 GFS 文件 系统 实际 上 是 Apache 的 HDFS 仿照 的 原本 ,或 者 说 HDFS 是 一 
种 GFS 的 开源 实现 版 ,具有 简化 .扩展 性 更 好 的 特点 。GFS 的 系统 结构 见 图 2-6, 它 的 集群 
节点 也 分 为 两 类 : 主 节点 (Master) 和 从 节点 (Chunkserver)。GFS 的 主 节点 有 多 个 备份 节 
点 ,甚至 是 分 布 式 部 署 ; 从 节点 (数据 存储 节点 ) 上 存储 固定 长 度 (GFS 是 64MB, 后 来 的 
Colossus 是 1MB) 的 数据 单元 。 
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图 2-6 GFS 体系 结构 


与 GFS 比较 ,HDFS 提供 了 这 种 主 从 模式 (Master/Slave) 分 布 式 文件 系统 的 一 个 开源 
实现 ,而 且 HDFS 的 实现 更 简单 .部署 灵活 \ 扩 展 性 好 、 可 以 运行 在 廉价 硬件 设备 上 ,不 管 是 
在 学 术 研 究 和 商业 系统 方面 都 得 到 了 较 广泛 的 应 用 ,成 为 大 数据 存储 系统 的 一 个 主要 选择 


之 一 








多 用 
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。 但 HDFS 也 存在 数据 访问 时 延 较 长 .处理 小 文件 (文件 大 小 二 1MB) 效 率 低 、 不 支持 
户 写 人 及 任意 修改 文件 的 缺点 。 比 较 之 下 ,GFS 尤其 是 后 来 的 Colossus 系统 具有 快速 


响应 、Master 节点 容错 能 力 强 、 处 理 小 文件 能 力 强 (Colossus 的 数据 块 长 度 缩减 为 1MB) 的 
优势 ,当然 Google 技术 作为 商业 产品 的 成 本 也 是 较 高 的 。 


2.2.3 NoSQL 数据 库 
构建 于 文件 系统 之 上 的 分 布 式 数 据 库 以 及 数据 仓库 ,不 仅 实现 数据 的 存储 管理 ,更 重要 


的 是 提供 了 对 上 层 计算 引擎 和 应 用 软件 的 数据 快速 查询 功能 和 数据 分 析 服 务 的 支持 。 目 
前 ,支持 大 数据 应 用 的 数据 库 产品 种 类 众多 ,其 存储 结构 与 采用 的 技术 也 各 不 相同 。 关 系 型 
数据 库 (RDBMS) 以 其 数据 一 致 性 好 事务 机 制 完善 .查询 语言 标准 化 、 查 询 效率 高 .技术 成 
熟 的 特点 一 直 以 来 是 数据 存储 管理 系统 的 主流 ,其 代表 产品 有 Oracle; MS SQL Server 和 
MySQL。 在 面 对 超 大 规模 数据 量 , 大 量 非 结 构 化 或 半 结 构 化 数据 的 大 数据 计算 问题 时 , 关 
系 型 数据 库 面临 如 下 挑战 。 


CD 大 数据 超大 规模 (PB 量 级 ) 的 存储 管理 要 求 系统 具有 很 好 的 弹性 ,在 分 布 式 环境 中 


可 方便 地 扩展 ,但 传统 关系 型 数据 库 对 数据 一 致 性 ,完整 性 的 强调 和 集中 部 署 方 式 使 得 其 扩 
展 性 较 差 ,难以 适应 数据 量 爆炸 式 增长 的 场景 。 


(2) RDBMS 基于 严格 定义 的 键 索引 和 数据 表 存 储 模 式 适 合 结构 化 数据 的 存储 管理 ， 


并 能 提供 高 效 的 基于 SQL 的 查询 机 制 。 但 对 于 非 结 构 化 或 半 结 构 化 数据 ,RDBMS 就 难以 
处 理 ,查询 效率 也 大 大 降低 。 


(3) 大 数据 计算 处 理 要 求 数据 存储 结构 能 够 很 好 地 支持 上 层 的 计算 模型 。 比 如 


MapReduce 计算 模型 采用 的 是 分 治 策略 (Divide-and-Conquer) , 即 先 把 一 个 大 数据 集 划 分 
为 多 个 子 集 ,然后 每 个 子 集运 行 Map 程序 进行 处 理 。 在 完成 子 集 的 处 理 后 ,再 运行 Reduce 
程序 完成 计算 结果 的 汇总 ,这 就 要 求 下 层 的 数据 存储 结构 能 够 支持 这 种 数据 集 ( 或 数据 表 结 
构 ) 的 划分 和 融 汇 功能 。 关 系 型 数据 库 由 于 严格 的 数据 一 致 性 .完整 性 要 求 ,难以 对 数据 表 
进行 这 种 分 割 处 理 , 因 此 很 难 支持 大 数据 计算 的 各 种 计算 模型 。 


近年 随 着 大 数据 处 理 而 兴起 的 基于 分 布 式 文件 系统 的 非 关系 型 数据 库 (CNot Only 


SQL,NoSQL) 则 以 其 扩展 性 好 、 能 有 效 处 理 非 结 构 化 或 半 结 构 化 数据 .支持 高 并 发 计算 模 
型 的 特点 ,在 互联 网 .医疗 卫生 .电子 商务 等 领域 得 到 了 广泛 应 用 。 与 传统 的 关系 型 数据 库 
(RDBMS) 比 较 , 这 类 NoSOL 数据 库存 在 如 下 共同 特征 59 。 


(1) 不 需要 预定 义 数 据 格式 。 不 需要 预先 定义 严格 的 数据 表 结 构 , 数 据 的 每 条 记录 都 


可 能 有 不 同 的 属性 和 格式 , 当 插入 数据 时 ,并 不 需要 预先 定义 它们 的 格式 。 


(2) 无 共享 架构 。 NoSQL 数据 库 往 往 将 数据 集 划分 后 存储 在 各 个 本 地 服务 器 上 ,从 本 


地 磁盘 读 取 数 据 的 性 能 往往 好 于 通过 网 络 传输 读 取 数 据 的 性 能 ,从 而 提高 了 系统 读 写 速度 。 


(3) 弹性 可 扩展 。 可 以 在 系统 运行 的 时 候 动 态 增加 或 者 删除 节点 而 不 需要 停机 维护 ， 


数据 可 以 自动 迁移 。 


(4) 数据 分 区 。 相对 于 将 数据 存放 于 同一 个 节点 ,NoSQL 数据 库 则 是 将 数据 进行 分 


区 ,将 记录 分 散在 多 个 节点 上 面 。 并 且 通 常 分 区 的 同时 还 要 做 复制 ,这 样 既 提 高 了 并 行 性 
能 ,又 能 保证 没有 单 点 失效 的 问题 。 


(5) 异步 复制 。NoSQL 的 复制 往往 是 基于 日 志 的 异步 复制 ,这 样 数据 就 可 以 尽快 地 写 
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人 一 个 节点 ,而 不 会 被 网 络 传输 引起 迟延 ,缺点 是 并 不 总 是 能 保证 一 致 性 。NoSQL 数据 库 
提供 的 是 基于 BASE 原则 5 的 最 终 一 致 性 。 

评价 分 布 式 环境 中 数据 库 系 统 的 性 能 有 所 谓 的 CAP (Consistency, Availability, and 
Partition-tolerance) Jj??? 。 这 里 C 是 指 一 致 性 (Consistency), 即 在 分 布 式 环境 中 多 个 
存储 节点 的 数据 在 同一 时 间 具 有 相同 的 数据 值 ,所 有 数据 备份 的 更 新 是 同步 的 ; A 是 指 可 
用 性 (Availability) ,能 快速 读 取 数 据 ,在 合理 的 时 间 内 返回 操作 结果 ,并 保证 每 个 请 求 不 管 
成 功 或 者 失败 都 有 响应 ; P 是 分 区 容忍 性 (Partition-tolerance) ,指数 据 分 区 的 容错 性 , 即 系 
统 中 的 某 个 分 区 无 法 与 其 他 节点 通信 时 不 影响 系统 其 余部 分 的 正常 运行 ,或 者 是 系统 部 分 
数据 的 错误 或 丢失 不 影响 系统 的 整体 运行 。 按 照 CAP 理论 ,一 个 分 布 式 系统 在 运行 中 其 数 
据 读 写 操 作 只 能 满足 一 致 性 (Consistency) ,可 用 性 (Availability) 和 分 区 容忍 性 (Partition- 
tolerance) 三 条 中 的 两 条 ,而 无 法 同时 满足 三 条 。 对 CAP 三 原则 的 取舍 也 导致 了 关系 型 数 
据 库 与 NoSQL 数据 库 的 区 别 。 

如 图 2-7 所 示 ,关系 型 数据 库 更 强调 数据 一 致 性 和 可 用 性 ,而 基于 键 值 紧密 关联 的 数据 
表 也 不 适合 拆 分 ,因此 关系 型 数据 库 是 典型 的 基于 CA 法 则 (Consistency & Availability) it 
计 的 。 








CAP Theorem 


RDBMS 、 Consistency 


Availability Partition 
AP Tolerance 





图 2-7 CAP 原则 取舍 : 关系 型 数据 库 vs. NoSQL 数据 库 


超大 规模 数据 需要 对 数据 进行 切割 划分 ,以 支持 并 行 计算 处 理 , 因 此 NoSQL 数据 库 首 
先 会 选择 分 区 容忍 性 (Partition-tolerance) 法 则 。 在 此 基础 上 ,有 一 类 NoSQL 数据 库 倾 向 
于 支持 数据 一 致 性 (事实 上 只 能 保证 最 终 一 致 性 ), 称 为 CP 型 数据 库 , 其 代表 有 
MongoDB'? , HBase"? ,Redis^? 4E, CP 型 数据 库 比 较 重视 数据 同步 ,但 在 节点 间 网 络 连 
接 发 生 问 题 时 ,等 待 时 延 较 长 ; 另 一 类 则 选择 强调 数据 可 用 性 ,放弃 了 运算 过 程 中 的 数据 一 
致 性 ,被 称 为 AP 型 数据 库 ,如 CouchDBE9 , Cassandra"? ,DynamoDBU5] S, AP 型 数据 库 
强调 计算 处 理 效率 ,但 需要 面 对 数 据 不 同步 的 问题 。 

相对 于 关系 型 数据 库 对 事务 严格 的 ACID BRO ,NoSQL 数据 库 对 事务 的 BASE 要 
求 是 另 一 个 值得 注意 的 特点 。ACID 是 数据 库 进行 事务 操作 时 的 4 个 原则 ,具体 内 容 如 下 。 

(1) Atomicity 原子 性 : 指 事务 必须 是 原子 工作 单元 ,对 于 其 数据 修改 ,要 么 全 都 执行 ， 
要 么 全 都 不 执行 。 











第 2 章 大 数据 计算 体系 个 


(2) Consistency 一 致 性 : 是 指 事务 在 完成 时 ,必须 使 所 有 的 数据 都 保持 一 致 状态 。 

(3) Isolation 隔离 性 : 指 由 并 发 事务 所 做 的 修改 必须 与 任何 其 他 并 发 事务 所 做 的 修改 
隔离 。 

(4) Durability 持久 性 : 是 指 事务 完成 之 后 , 它 对 于 系统 的 影响 是 永久 性 的 ,该 修改 即使 
出 现 致命 的 系统 故障 也 将 一 直 保 持 。 

NoSQL 数据 库 设 计 没 有 完全 遵循 ACID 原则 ,而 是 满足 BASE 法 则 ,具体 内 容 如 下 。 

(1) Basically Available 基本 可 用 性 : 意 指 分 布 式 系统 的 一 部 分 发 生 问题 变 得 不 可 用 
时 ,其 他 部 分 仍然 可 以 正常 使 用 ,也 就 是 允许 出 现 分 区 失败 的 情形 。 

(2) Soft-state 软 状态 : 意 指数 据 状态 在 执行 中 可 以 有 一 段 时 间 不 同步 ,具有 一 定 的 滞 
后 性 。 与 此 对 应 的 是 Hard-state 硬 状态 , 指 整 个 过 程 中 都 必须 数据 同步 ,保证 数据 一 致 性 。 

(3) Eventual consistency 最 终 一 致 性 : 指 在 事务 执行 过 程 中 ,容许 后 续 的 读 取 操 作 暂 
时 读 不 到 最 新 数据 ,但 在 事务 结束 时 ,所 有 数据 都 要 更 新 ,达到 最 终 一 致 性 。 

按照 存储 架构 设计 的 不 同 ,NoSQL 数据 库 可 分 为 键 值 数 据 库 、 列 存储 数据 库 、 文 档 数据 
库 和 图 形 数据 库 4 个 大 类 。 键 值 数 据 库 有 Cassandra?" , Amazon SimpleDB?? , Hyper Table 9"! 、 
Kyoto Cabinet? „Google LevelDB55 等 ; 列 族 数据 库 ( 也 称 为 列 存储 数据 库 ) 有 HBase™ 、 
Redis^? ,DynamoDB*? , Riak* 4; 文档 数据 库 包 括 MongoDB”? ,CouchDBP® 、MarkLogic 
等 ; 图 形 数 据 库 则 有 Neo4j99 ,InfiniteGraph?? , ng 2-8 所 示 。 
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E 2-8 NoSQL 数据 库 的 4 大 分 类 


键 值 数据 库 是 基于 键 值 对 (key,value) 实 现 对 数据 的 存储 和 查询 。 其 基本 思想 是 : 数 
据 值 (Value) 通 过 键 (Key) 来 查询 (图 2-9(a)), 键 可 以 是 字符 串 类 型 , 值 可 以 是 任意 类 型 的 
数据 ,比如 整 型 .字符 型 .数组 、 列 表 、 集 合 等 。 底 层 结构 则 可 采用 哈 希 表 (Hash Table) 对 键 
进行 索引 和 管理 ,支持 快速 查询 。 但 键 值 数据 库 不 支持 基于 数据 值 的 查询 。 

列 存 储 数据 库 采用 列 存储 结构 ,也 有 人 称 之 为 DSM(Decomposition Storage Model) , 
即 数据 是 基于 值 域 ( 列 ) 进 行 检索 .存储 和 管理 (图 2-9(b))。 列 式 存储 仍然 使 用 键 , 但 键 是 
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指向 列 。 列 存储 数据 库 支 持 高 压缩 比 , 大 规模 数据 下 对 数据 字段 的 查询 非常 高 效 ,但 不 适合 
于 实时 删除 或 更 新 整 条 记录 ,也 不 支持 数据 表 的 join 操作 。 
































































































































Key 1 Value 1 Dataset 
Key 2 Value 2 Column-Family-1 Column-Family-2 
Row Column | Column Column 
Key 3 Value 1 Keyl Name-1 | Name-2 Name-3 
EA Value 3 Column | Column Column 
ey aue: Value-1 | Value-2 Value-3 
Key 5 Value 2 
Column-Family-1 
Key 6 Value | Column | Column | Column 
Row Name-4 | Name-5 | Name-6 
Key 7 Value 4 Key-2 Column | Column | Column 
Value-4 | Value-5 | Value-6 
Key 8 Value 3 
(a) 键 值 数据 库 (b) 列 族 数据 库 





图 2-9 键 值 数据 库 与 列 存 储 数 据 库 


文档 数据 库 是 围绕 一 系列 语义 上 自 包含 的 文档 来 组 织 数 据 管 理 (图 2-10(a)) ,文档 没有 
模式 ,也 就 是 说 并 不 要 求 文档 具有 某 种 特定 的 结构 。 一 个 文档 数据 库 实际 上 是 一 系列 文档 
的 集合 ,文档 其 实 是 一 个 数据 记录 ,这 个 记录 能 够 对 包含 的 数据 类 型 和 内 容 进行 “自我 描 
述 ”,XML 文档 .HTML 文档 和 JSON 文档 就 属于 此 类 。 每 个 文档 所 包含 的 数据 记录 是 一 
系列 数据 项 的 集合 ,每 个 数据 项 都 有 一 个 名 称 与 对 应 的 值 ,该 值 既 可 以 是 简单 的 数据 类 型 ， 
如 字符 串 .数字 和 日 期 等 ,也 可 以 是 复杂 的 类 型 ,如 有 序列 表 和 关联 对 象 。 文 档 数据 库 特别 
适合 于 管理 面向 文档 的 数据 或 类 似 的 半 结 构 化 数据 ,比如 后 人 台 具 有 大 量 读 写 操作 的 网 站 、 使 
用 JSON 数据 结构 或 使 用 嵌 套 结构 非 规范 化 数据 的 应 用 程序 。 















































Key-Value2: 
Dataset 
Key-Valuel 
Document id-1 |— —4| Document-l 
buo 
一 Uo 
[ Document i3 |—- Documents Key-Valuel Key-Value2 

= C- 

Key- 

- u— T Node2 

(a) 文档 数据 库 (b) 图形 数据 库 


2-10 文档 数据 库 与 图 形 数据 库 


图 形 数据 库 将 社交 关系 等 数据 描述 为 点 (Vertex) 和 边 (Edge) 及 它们 的 属性 
(Property) ,每 一 张 图 (Graph) 都 可 以 看 作 是 一 个 结构 化 数据 (图 2-10(b))。 这 里 ， 点 ”代表 
实体 ,比如 入 、 企 业 ,账户 或 其 他 任何 数据 项 ,类 似 于 关系 数据 库 中 的 数据 记录 或 文档 数据 库 
中 的 文件 ;“ 边 ” 则 代表 点 与 点 之 间 的 关系 ;“ 属 性 ” 则 是 用 户 关注 的 与 点 相关 的 特性 。 关 系 
型 数据 库 将 不 同 数据 之 间 的 关联 关系 隐 含 在 数据 值 域 中 (如 StudentID 这 个 值 域 可 以 把 教 
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务 系统 中 的 一 个 学 生 信息 与 图 书馆 系统 中 的 一 个 学 生 信息 关联 起 来 ) ,而 图 形 数据 库 则 直接 
将 这 种 关联 关系 定义 并 存储 在 数据 库 中 ,因此 图 形 数据 库 擅长 处 理 高 度 关联 的 数据 ,适合 于 


社交 网 络 、 模 式 识别 ,依赖 分 析 、 推 荐 系统 以 及 路 径 寻 找 等 可 以 表达 为 关系 图 的 问题 。 
表 2-2 给 出 了 4 类 NoSQL 数据 库 的 性 能 特点 对 比 。 


表 2-2 4 类 NoSQL 数据 库 总 结 





数据 无 结构 化 ,通常 只 























内 容 缓 存 , 主 要 用 于 | Key 指向 Value 的 键 
键 值 | 处 理 大 量 数据 高 访 | 值 对 ,通常 用 Hash | 查找 速度 快 被 当 作 字符 申 或 者 二 进 
问 负载 Table 来 实现 制 数据 
列 存储 IERTE ERI | 查找 速度 快 , 易 进行 
数据 库 | 分 布 式 的 文件 系统 | 克 数 据 存在 一 起 。 | 分 布 式 扩展 DESSEN 
文档 型 | Web 应 用 结构 化 的 ER a SAT 查询 性 能 不 高 ,而 且 忽 
数据 库 | 数据 Ta au Pru 
gy 社交 网 络 、 推 荐 系统 利用 图 结构 相关 算 | 很 多 时 候 需 要 对 整个 图 
wa. | 等 * 专注 于 构建 关 | 图 结构 法 。 比 如 最 短路 径 | 做 计算 才能 得 出 需要 的 
系 图 谱 33:5 信息 


与 传统 的 关系 型 数据 库 比 较 , 在 处 理 非 结构 化 或 半 结 构 化 数据 方面 ,NoSQL 的 文档 型 
数据 库 和 列 秘 型 数据 库 能 够 有 效 支 持 大 规模 分 布 式 存储 的 典 套 结构 等 非 规范 化 数据 的 计算 
处 理 。 图 2-11 描述 了 NoSQL 数据 库 不 同 技术 和 产品 对 结构 化 、 半 结构 化 、 非 结构 化 数据 的 


支持 。 





分 布 式 存储 技术 


图 2-11 NoSQL 数据 库 对 不 同 数据 类 型 的 支持 


2.2.4 统一 数据 访问 接口 


应 用 程序 对 数据 库 的 访问 及 数据 交换 是 分 布 式 计 算 系统 的 一 个 重要 问题 。 业 界 较 早 使 
用 的 是 微软 公司 提供 的 数据 库 访 问 应 用 程序 编程 接口 ODBC (Open DataBase 
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Connectivity) 99 , 它 采 用 X/Open 和 ISO/IEC 的 调用 接口 CLICCall-Level Interface) 标 准 
为 基础 ,使 用 结构 化 查询 语言 SQL 作为 数据 库 访问 语言 。ODBC 本 质 上 是 一 组 数据 库 访问 
API( 应 用 程序 编程 接口 ) ,由 一 组 函数 调用 组 成 ,核心 是 SQL 语句 。 一 个 基于 ODBC 的 应 
用 程序 对 数据 库 进 行 操作 时 ,用 户 直接 将 SQL 语句 传送 给 ODBC, 同 时 ODBC 对 数据 库 的 
操作 也 不 依赖 任何 DBMS ,不 直接 与 DBMS 打交道 ,所 有 的 数据 库 操作 由 对 应 的 ODBC 3R 
动 程序 完成 (图 2-12)。ODBC 包括 如 下 组 件 。 

(D ODBC API 编程 接口 : 调用 ODBC 函数 提交 SQL 查询 语句 并 获得 检索 结果 。 

(2) 驱动 程序 管理 器 (Driver Manager) ; 根据 应 用 程序 需要 加 载 / 印 载 驱动 程序 ,处 理 
ODBC 函数 调用 ,或 把 它们 传送 到 驱动 程序 。 

(3) 驱动 程序 : 处 理 ODBC 函数 调用 ,提交 SQL 请 求 到 一 个 指定 的 数据 源 ,并 把 结果 
返回 到 应 用 程序 。 





ODBC 应 用 程序 





1 
ODBC 驱 动 程序 管理 器 








Y 1 Y 
Oracel ODBC 驱 动 程序 | so. Server ODBC 驱 动 程序 | Excel ODBC 驱 动 程序 








1 1 Y 
Oracle DBMS | SQL Server DBMS Excel DBMS 




















Oracle DB SQL Server DB Excel DB 











Æ 2-12 ODBC 数据 库 接口 


由 于 ODBC API Æ C 语言 编写 的 底层 函数 ,不 利于 高 级 语言 调用 ,因此 微软 又 提供 了 
面向 对 象 的 接口 DAO(Data Access Object)?" 和 RDO(CRemote Data Object)? 。ODBC、 
DAO RDO 接口 只 能 访问 关系 型 数据 库 , 因 此 对 于 邮件 、 文 本 和 图 形 、 目 录 服 务 数据 ,乃至 
自 定义 数据 对 象 等 这 类 非 关 系 型 数据 源 ,微软 又 提出 了 数据 库 链 接 和 嵌入 对 象 (Object 
Linking and Embedding. Database. OLE DB), OLE DB 是 微软 提出 的 基于 COM 组 件 且 
面向 对 象 的 一 种 技术 标准 ,目的 是 提供 一 种 统一 的 数据 访问 接口 。 这 里 所 说 的 数据 除了 标 
准 的 关系 型 数据 库 中 的 数据 之 外 ,还 包括 邮件 数据 、 
Web 上 的 文本 或 图 形 、 目 录 服 务 (Directory Services), 
主机 系统 文件 和 地 理 数据 以 及 自 定义 业务 对 象 等。 
OLE DB 标准 的 核心 内 容 就 是 要 求 对 以 上 这 些 各 种 
各 样 的 数据 存储 (Data Store) 都 提供 一 种 相同 的 访问 
接口 ,使 得 数据 使 用 者 (应 用 程序 ) 可 以 使 用 同样 的 方 
法 访问 各 种 数据 ,而 不 用 考虑 数据 的 具体 存储 地 点 、 
格式 或 类 型 ,如 图 2-13 所 示 。 

JDBC(Java DataBase Connectivity) *? 是 一 个 面 
图 2-13 ”微软 的 OLE DB 数据 库 接口 ”向 对 象 的 数据 库 接口 规范 ,定义 了 一 个 支持 标准 
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SQL 查询 的 通用 程序 编程 接口 (API) ,由 Java 语言 编写 的 类 和 接口 组 成 ,用 于 支持 Java 应 
用 程序 对 各 类 数据 库 的 访问 。JDBC 也 是 基于 X/Open 的 SQL 调用 接口 ,在 设计 思想 上 沿 
RT ODBC, 也 包含 编程 接口 API、 驱动 程序 管理 器 、 驱 动 程序 等 组 件 。 与 ODBC 一 样 ， 
JDBC 也 支持 在 应 用 程序 中 同时 建立 多 个 数据 库 连 接 , 通 过 JDBC 可 以 用 SQL 语句 同时 
访问 多 个 异 构 数 据 库 。 除 了 上 述 特 点 外 ,JDBC 还 具有 对 硬件 平台 和 操作 系统 的 跨 平台 
支持 。 

ODBC 和 JDBC 这 类 用 于 数据 库 连接 的 编程 接口 虽然 能 够 支持 应 用 程序 对 数据 库 的 
SQL 访问 ,但 其 功能 有 限 ,不 能 提供 分 布 式 计算 环境 中 诸如 事务 管理 .并 发 调度 、 缓 冲 管理 、 
异 构 数 据 转 换 与 集成 等 复杂 功能 。 这 就 引入 了 数据 访问 层 (Data Access Layer, DAL) 的 概 
BI, DAL 是 数据 库 之 上 提供 数据 交换 功能 的 一 层 软件 ,其 功能 主要 是 实现 应 用 程序 数 
据 的 持久 化 存储 ,即将 数据 写 和 数据库; 另外 ,从 数据 库 中 读 取 数据 并 传递 给 应 用 程序 , 实 
现 数据 交换 (图 2-14)。 具 体 而 言 ,数据 访问 层 需要 提供 的 功能 如 下 。 

COD 提供 对 数据 库 CRUD (Create, Retrieve. 
































Update and Delete) 基 本 操作 的 支持 。 T 
(2) 事务 管理 。 这 里 指数 据 库 访问 的 事务 管理 ， TETT 
即 对 数据 库 访问 请 求 所 产生 的 增加 、 修 改 、 删 除 等 操 | 
Vieh E e 数据 访问 层 
(3) 并 发 处 理 。 一 个 数据 库 可 能 拥有 多 个 应 用 
程序 访问 ,而 这 些 应 用 程序 可 能 以 并 发 方式 访问 数据 
库 , 因 此 数据 库 中 的 相同 数据 可 能 同时 被 多 个 事务 访 | SOL 可 Oracle 





问 , 如 果 没 有 采取 必要 的 并 发 隔离 措施 ,就 会 导致 各 
种 问题 ,破坏 数据 的 完整 性 。 

(4) 异 构 数 据 转换 。 对 于 跨 平台 ,不 同 数 据 格式 的 异 构 数 据 库 提供 数据 转换 、 抽 取 和 集 
成 的 功能 。 

数据 访问 层 的 实现 方式 有 多 种 ,常见 的 有 数据 存 取 对 象 (Data Access Object. DAO) , AE 
于 ORM(Object/Relation Mapping) 的 实现 .服务 数据 对 象 (Service Data Object,SDO)、 服 
务 中 间 件 等 。 

DAO(Data Access Object)c 吧 实际 上 是 一 种 组 件 设计 模式 ,即将 对 数据 源 的 访问 操作 
抽象 封装 在 专门 的 接口 类 中 ,通过 类 的 使 用 来 支持 对 数据 库 的 访问 。 由 于 采用 了 面向 对 象 
设计 ,DAO 把 调用 它 的 应 用 程序 的 数据 访问 请 求 定义 为 对 象 (Object) 的 公共 接口 ,而 把 基 
于 底层 的 数据 库 驱 动 程序 (ODBC 或 JDBC) 对 连接 数据 库 的 具体 操作 封装 在 对 象 函 数 
(Fuction) 内 部 。 这 样 ,即使 连接 的 数据 库 发 生变 化 ,要 改变 的 也 只 是 函数 实现 代码 ,而 不 会 影 
响应 用 程序 调用 的 公共 接口 。 这 正 是 DAO 这 种 设计 模式 带 来 的 优点 。 对 象 关 系 映射 (Object- 
Relational Mapping. ORMD) 就 是 一 种 对 数据 库 访问 进行 封装 、 实 现 程序 对 象 到 关系 数据 库 数据 
的 映射 的 中 间 件 5s] 。ORM 不 再 只 是 一 种 设计 模式 ,而 是 一 种 实现 的 中 间 件 产品 ,如 Java 的 
Hibernate? ,以 及 很 多 PHP 框架 里 自 带 的 ORM 库 。 对 于 应 用 程序 开发 员 而 言 ,ORM 提 
供 了 一 种 可 以 访问 使 用 数据 库 中 的 数据 ,而 无 须 了 解数 据 库 结构 细节 的 工具 。 

当 系 统 扩 展 到 需要 访问 跨 平台 的 异 构 数 据 库 时 ,运行 平台 可 能 是 UNIX、Linux 或 


图 2-14 数据 访问 层 
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Windows, 要 访问 的 数据 类 型 可 以 是 表单 、 邮 件 、XML 文档 、EJB 2H fF, Web 服务 、 图 像 、 音 
频 / 视 频 文 件 或 其 他 非 结 构 化 数据 ,单一 类 型 DAO 或 ORM 就 很 难 支 持 这 种 跨 平台 异 构 数 
据 库 的 访问 。 而 且 , 大 数据 应 用 层 的 技术 也 是 多 样 化 和 各 种 标准 的 ,数据 访问 层 (DAL) 的 
设计 需要 兼容 各 种 标准 的 技术 和 产品 ,这 就 引入 了 统一 数据 访问 接口 (Unified Data Access 
Interface) 的 概念 。 

基于 统一 数据 接口 用 于 支持 分 布 式 环境 中 对 跨 平台 异 构 数 据 库 访问 的 数据 访问 层 应 具 
备 如 下 功能 。 

A) 统一 的 数据 展示 、 存 储 和 管理 。 

(2) 访问 接口 与 实现 代码 分 离 的 原则 ,底层 数据 库 连接 的 更 改 不 影响 统一 数据 访问 
接口 。 

(3) 屏 项 了 数据 源 的 差异 和 数据 库 操 作 细 节 ,使 得 应 用 层 专注 于 数据 应 用 。 

(4) 提供 一 个 统一 的 访问 界面 和 一 种 统一 的 查询 语言 。 

如 图 2-15 所 示 , 这 样 的 一 个 统一 数据 访问 层 (Unified Data Access Layer, UDAL) 应 包 
括 如 下 构件 : 

(1) 统一 数据 访问 界面 /统一 查询 语言 ; 

(2) 数据 模型 /元 数据 /服务 模型 ; 

(3) 数据 转换 引擎 /数据 访问 引擎 /数据 源 管理 器 ; 

(4) 数据 源 包装 器 。 











图 2-15 统一 数据 访问 层 架构 
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2.3 数据 处 理 平 台 


数据 处 理 系 统 提供 了 大 数据 计算 处 理 能 力 和 应 用 开发 平台 。 从 计算 架构 角度 ,数据 处 
理 系 统 可 分 为 数据 算法 层 、 计 算 模型 层 、 计 算 平台 层 、 计 算 引 擎 层 等 层次 (如 图 2-16 所 示 )。 
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分 类 算法 /挖掘 算法 /回归 分 析 / 聚 类 算法 /关联 规则 /机 器 学 习 算法 


图 2-16 数据 处 理 系统 分 层 架 构 


2.3.1 数据 分 析 算 法 


数据 分 析 算 法 包含 与 数据 统计 、 分 析 、 预 测 相关 的 算法 ,大 致 可 分 为 4 大 类 : 分 类 算法 
Classification( 包 括 KNN 算法 .逻辑 回 归 、 支 持 向 量 机 、 朴 素 贝 叶 斯 分 类 器 Naive-Bayes 
等 ); 回归 分 析 Regression Analysis( 包 括 线性 回归 、 决 策 树 等 ); 聚 类 Clustering (包括 
K-means,SVD, PCA 等 ); 关联 分 析 Association Analysis( 包 括 Apriori algorithm. FP- 
Growth 等 ) ,如 图 2-17 所 示 。 

机 器 学 习 算法 按照 其 学 习 方式 还 可 分 为 如 下 三 类 。 

1. 监督 学 习 

机 器 学 习 算法 中 有 一 部 分 采用 “监督 学 习 ” 的 方式 。 具 体 地 说 ,我 们 用 一 个 训练 样本 集 
去 训练 一 个 算法 ,训练 集中 每 个 样本 的 输入 值 x 都 对 应 一 个 已 知 的 结果 值 y (或 一 个 标签 )， 
通过 算法 对 一 定量 训练 集 数据 的 计算 和 调整 后 ,最 终 算法 模型 (数学 上 可 看 作 一 个 x 一 y 的 
映射 函数 A(z，y)) 能 够 对 输入 的 真实 数据 集 X 的 输出 结果 YY 做 出 符合 规定 精度 的 预测 。 
符合 这 种 方式 的 算法 就 被 称 作 监 督学 习 算 法 。 
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图 2-17 机 器 学 习 算法 分 类 


输出 结果 如 果 是 连续 值 (如 预测 某 一 时 段 的 股票 价格 .房屋 价格 ) ,就 称 作 回归 分 析 问 
题 ; 如 果 输 出 值 是 离散 值 (如 标定 为 “病毒 文件 "或 “正常 文件 ”) ,就 称 为 分 类 问题 。 分 类 算 
法 和 回归 分 析 都 属于 监督 学 习 范 畴 。 

2. 无 监督 学 习 

有 一 类 问题 并 没有 给 出 样本 集 的 输出 结果 值 或 标签 答案 ,需要 算法 自己 通过 对 数据 集 
的 计算 , 校 验 ,归纳 去 找 出 数据 中 存在 的 模式 、 规 则 或 结论 ,这 种 方式 就 称 作 * 无 监督 学 习 ”。 
包括 关联 规则 和 聚 类 算法 在 内 的 一 系列 机 器 学 习 算法 都 属于 这 个 范畴 。 典 型 的 无 监督 学 习 
算法 有 K-means 聚 类 算法 和 Apriori 关联 算法 。 

3. 半 监 督学 习 

这 一 类 问题 只 知道 样本 集 的 部 分 输出 结果 或 标签 ,需要 算法 自己 去 建立 数据 结构 ,通过 
计算 对 整个 数据 集 的 输出 结果 做 出 预测 。 这 一 类 算法 有 自 训练 ,推导 学 习 、 生 成 式 模型 等 。 

另外 ,还 有 按照 功能 和 相似 度 对 不 同 算法 进行 分 类 的 方式 。 

1. 回归 分 析 类 

回归 算法 是 通过 最 小 化 预测 值 与 实际 结果 值 之 间 的 差 值 而 得 到 输入 特征 之 间 关 系 的 一 
类 算法 。 对 于 连续 值 预测 有 线性 回归 算法 ,而 对 于 离散 值 /类 别 预测 也 可 以 把 逻辑 回归 等 视 
作 回 归 算 法 的 一 种 ,常见 的 回归 算法 如 下 。 

(1) Ordinary Least Squares Regression(OLSR) 


* Hidden Markov Model 


Categorical 


1 

1 

1 

o FP-Growth I 
1 

| 


(2) Linear Regression 

(3) Logistic Regression 

(4) Stepwise Regression 

(5) Locally Estimated Scatterplot Smoothing (LOESS) 
(6) Multivariate Adaptive Regression Splines( MARS) 
2. 基于 实例 的 算法 


这 里 所 谓 的 基于 实例 的 算法 , 指 的 是 最 后 建成 的 模型 对 原始 数据 样本 实例 依旧 有 很 强 
的 依赖 性 。 这 类 算法 在 做 预测 决策 时 ,一般 都 是 使 用 某 类 相似 度 准则 ,去 比 对 待 预测 的 样本 
和 原始 样本 的 相近 度 ,再 给 出 相应 的 预测 结果 。 常 见 的 基于 实例 的 算法 如 下 。 
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(D k-Nearest NeighbourCkNN) 

(2) Learning Vector Quantization(LVQ) 

(3) Self-Organizing Map( SOM) 

(4) Locally Weighted Learning LWL) 

3. 决策 树 类 算法 

决策 树 类 算法 ,会 基于 原始 数据 特征 ,构建 一 棵 包含 很 多 决策 路 径 的 树 。 预 测 阶 段 选择 
路 径 进行 决策 。 常 见 的 决策 树 算法 如 下 。 

(1) Classification and Regression Tree(CART) 

(2) Iterative Dichotomiser 3(ID3) 

(3) C4. 5 and C5. O(different versions of a powerful approach) 

(4) Chi-squared Automatic Interaction Detection CH AID) 

(5) Conditional Decision Trees 

4. 贝 叶 斯 类 算法 

这 里 说 的 贝 叶 斯 类 算法 , 指 的 是 在 分 类 和 回归 问题 中 , 隐 含 使 用 了 贝 叶 斯 原理 的 算法 ， 
常见 的 贝 叶 斯 类 算法 如 下 。 

(1) Naive Bayes 

(2) Gaussian Naive Bayes 

(3) Multinomial Naive Bayes 

(4) Averaged One-Dependence Estimators( AODE) 

(5) Bayesian Belief Network( BBN) 

(6) Bayesian Network( BN) 

5. 聚 类 算法 

聚 类 算法 是 把 输入 样本 汇聚 成 围绕 一 些 中心 的 “数据 团 ”, 以 发 现 数据 分 布 结构 的 一 些 
规律 。 常 用 的 聚 类 算法 如 下 。 

(1) K-means 

(2) Hierarchical Clustering 

(3) ExpectationMaximization( EM) 

6. 关联 规则 算法 

关联 规则 算法 是 这 样 一 类 算法 : 它 试图 抽取 出 最 能 解释 训练 样本 之 间 关联 关系 的 规 
则 ,也 就 是 获取 一 个 事件 和 其 他 事件 之 间 依 赖 或 关联 的 知识 ,常见 的 关联 规则 算法 如 下 。 

(1) Apriori algorithm 

(2) Eclat algorithm 

7. 人 工 神 经 网 络 类 算法 

这 是 受 人 脑 神经 元 工作 方式 启发 而 构造 的 一 类 算法 。 需 要 提 到 的 一 点 是 ,这 里 说 的 人 
工 神经 网 络 偏向 于 更 传统 的 感知 算法 ,主要 包括 以 下 几 个 。 

(1) Perceptron 

(2) Back-Propagation 
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(3) Radial Basis Function Network(RBFN) 

8. 深度 学 习 

深度 学 习 是 近年 来 非常 引 人 注 目的 机 器 学 习 领 域 的 算法 ,相对 于 上 面 列 出 的 人 工 神经 
网 络 算法 , 它 通常 情况 下 有 着 更 深 的 层次 和 更 复杂 的 结构 。 最 常见 的 深度 学 习 算法 如 下 。 

(D) Deep Boltzmann Machine(DBM) 

(2) Deep Belief Networks(DBN) 

(3) Convolutional Neural Network(CNN) 

(4) Stacked Auto-Encoders 

9. 降 维 算法 

从 某 种 程度 上 说 , 降 维 算法 和 聚 类 其 实 有 一 些 类 似 , 因 为 它 也 在 试图 发 现 原始 训练 数据 
的 固有 结构 ,但 是 降 维 算法 试图 用 更 少 的 信息 (更 低 维 的 信息 ) 总 结 和 描述 出 原始 信息 的 大 
部 分 内 容 。 有 意思 的 是 , 降 维 算法 一 般 在 数据 的 可 视 化 ,或 者 是 降低 数据 计算 空间 方面 有 很 
大 的 作用 。 它 作为 一 种 机 器 学 习 的 算法 ,很 多 时 候 用 它 先 预 处 理 数 据 , 再 输入 别 的 机 器 学 习 
算法 。 主 要 的 降 维 算法 如 下 。 

(1) Principal Component Analysis(PCA) 

(2) Principal Component Regression (PCR) 

(3) Partial Least Squares Regression PLSR) 

(4) Sammon Mapping 

(5) Multidimensional Scaling MDS) 

(6) Linear Discriminant Analysis( LDA) 

(7) Mixture Discriminant Analysis( MDA) 

(8) Quadratic Discriminant Analysis(QDA) 

(9) Flexible Discriminant Analysis(FDA) 

10. 模型 融合 算法 

严格 意义 上 来 说 ,这 不 算是 一 种 机 器 学 习 算 法 ,而 更 像 是 一 种 优化 手段 /策略 , 它 通 常 是 
结合 多 个 简单 的 弱 机 器 学 习 算 法 去 做 更 可 靠 的 决策 。 以 分 类 问题 为 例 , 直 观 地 理解 ,就 是 单 
个 分 类 器 的 分 类 是 可 能 出 错 的 ,不 可 靠 的 ,但 是 如 果 多 个 分 类 器 投票 , 那 可 靠 度 就 会 提高 很 
多 。 常 用 的 模型 融合 增强 方法 如 下 。 

(1) Random Forest 

(2) Boosting 

(3) Bootstrapped Aggregation( Bagging) 

(4) AdaBoost 

(5) Stacked Generalization(blending) 

(6) Gradient Boosting Machines(GBM) 

(7) Gradient Boosted Regression Trees(GBRT) 

其 他 大 数据 计算 还 涉及 的 算法 有 预测 算法 (如 遗传 算法 BPO 推荐 算法 (PageRank， 
EdgeRank ,协同 过 滤 ) 等 。 
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针对 不 同 数 据 类 型 (实时 或 非 实时 、 数 值 .文本 或 网 络 图 数据 ,连续 数据 或 离散 数 
据 ) 不 同 处 理 方式 ( 线 上 或 线 下 ,数据 切割 划分 ,数据 迁移 或 程序 复制 ) ,需要 不 同 的 计算 
模型 来 提供 计算 范式 和 数据 处 理 的 逻辑 步 又。 目前 ,大 数据 计算 分 析 主 要 用 到 的 计算 模 
型 有 MapReduce (Ej 2 Ht Ab 38007 41, [8 Jf fp. dr 3X0 17. 26H. R Jb IE (Interactive 
Processing): 9 , STE $$ (Streaming) 7^ 7 ,内 存 计 算 (In-memory Computing) 9, X Ui 
并 行 处 理 (Massively Parallel Processing) 4& , 
MapReduce 是 一 种 支持 分 布 式 计算 环境 的 并 行 处 理 模型 。MapReduce 程序 运行 在 由 
台 计 算 机 组 成 的 Master/Slave 集群 架构 上 (一 个 Master 节点 ,多 个 Slave 节点 ; Master 
节点 负责 任务 调度 和 管理 ,Slave 节点 执行 具体 的 计算 任务 ) ,其 计算 流程 如 图 2-18 所 示 , 包 
括 Split( 数 据 划 分 )，Map( 映 射 )，Collect&.Sort( 聚 合 排 序 , 也 称 Shuffle)，Reduce( 简 化 )， 
以 及 Store( 数 据 存储 )5 个 基本 步骤 。MapReduce 的 编程 接口 对 上 述 步 又 进行 了 封装 ,用 户 
只 需 定义 自己 的 Map() 和 Reduce() 函 数 即 可 完成 数据 集 的 循环 迁 代 计算 。 有 具体 过 程 为 ， 
程序 从 分 布 式 文件 系统 读 和 大 数据 集 并 切 分 为 Split 4T H2 , Map 函数 处 理 Split 并 输出 中 
Ta] 45 J& , Shuffle 把 中 间 结 果 分 区 排序 整理 后 发 送 给 Reduce RZ, Reduce 完成 具体 计算 任 
务 并 将 最 终结 果 写 人 文件 系统 。 
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图 2-18 MapReduce 计算 流程 


MapReduce 模型 实际 上 采用 了 分 治 策略 ,即将 一 个 大 数据 集 分 割 为 多 个 小 尺度 子 集 ， 
然后 让 计算 程序 靠近 每 个 子 集 ,同时 并 行 完 成 计算 处 理 。MapReduce 编程 界面 简便 易 用 ， 
能 够 在 普通 商业 计算 机 集群 上 有 效 地 处 理 超 大 规模 数据 ,是 目前 大 数据 计算 的 一 个 主流 计 
算 模型 。MapReduce 的 不 足 之 处 是 硬盘 数据 读 取 频繁 ,处 理 时 效 性 较 差 ,不 适合 于 要 求 快 
速 响应 的 在 线 智能 分 析 。 

图 并 行 计算 模型 针对 的 是 可 以 表达 为 有 向 图 的 一 类 大 数据 计算 ,比如 社交 网 络 数 据 。 
据 Google 报告 ,这 类 数据 在 它 处 理 数据 量 中 占 到 了 20%" 9 。 这 类 计算 更 适合 采用 基于 数 
学 中 图 论 (Graph Theory) 的 算法 来 进行 处 理 。 基 于 BSP (Bulk. Synchronous Parallel) 模 
319 Google 在 2008 年 推出 了 图 并 行 计算 框架 Pregeleo ,Apach 开源 社区 也 在 2012 年 启 
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动 了 图 并 行 计算 项 目 Hama", 

BSP 模型 1990 年 由 Leslie G. Valiant 提出 ,该 模型 包含 一 组 具有 计算 和 内 存 能 力 的 组 
件 , 一 个 用 于 组 件 之 间 通 信 的 网 络 , 以 及 一 个 用 于 障碍 同步 的 同步 机 制 。 其 核心 思想 是 通过 
定义 SuperStep( 超 步 ) 将 一 个 大 的 计算 任务 分 解 为 一 定数 量 的 超 步 ,而 在 每 一 个 超 步 内 各 
计算 节点 独立 地 完成 本 节点 计算 任务 ,在 完成 本 地 存储 和 节点 间 数 据 通信 后 ,在 一 个 全 局 时 
钟 控制 下 进入 下 一 个 超 步 ,如 图 2-19 所 示 。 基 于 BSP 模型 的 图 并 行 计算 框架 Pregel, Hama 
的 优势 在 于 高 效 地 支持 图 遍历 BESE 最短 路径 SSSPU" , PageRank? 等 图 算法 ,弥补 了 
MapReduce 模型 在 大 规模 图 计算 处 理 方面 的 不 足 。 

针对 MapReduce 模型 时 效 差 的 问题 ,Google 又 推出 了 交互 式 计算 工具 Dremel, € 
通过 采用 特殊 设计 的 租 套 数据 结构 、 列 存储 方式 (图 2-20) 以 及 Serving Tree 计算 流程 来 大 
大 提高 数据 的 处 理 速度 。 针 对 某 些 特定 类 型 的 大 数据 集 ,Google 进一步 设计 了 采用 组 合 范 
围 分 区 和 内 存 驻 存 数据 技术 的 PowerDrillc59 来 提高 数据 处 理 速度 。 对 应 的 开源 技术 有 
Apache 的 Drill 项 目 55 , 
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流 计算 (Stream Computing) 中 是 一 种 处 理 实时 动态 数据 的 计算 模型 。 传 统 企业 数 据 库 
存放 的 是 历史 数据 也 即 静 态 数 据 , 即 数据 在 进行 计算 处 理 前 必须 全 部 进入 数据 库 , 技 术 人 员 
可 以 对 数据 库 进行 查询 、 更 新 等 操作 ,并 利用 数据 挖掘 和 OLAP (On-Line Analytical 
Processing) 等 分 析 工 具 从 静态 数据 中 找到 有 价值 的 信息 支持 企业 决策 分 析 。 静 态 数据 库 
工作 流程 见 图 2-21. 

但 在 互联 网 应 用 (用 户 网 页 点 击 追 踪 .在线 实时 推荐 系统 等 ) .智能 交通 系统 .无 线 传 感 
器 网 络 监控 等 领域 ,其 数据 产生 方式 与 数据 特征 呈现 如 下 特点 和 计算 要 求 。 

(1) 数据 不 再 是 分 批 次 间隔 性 到 达 ,而 是 动态 连续 不 断 地 到 达 , 呈 现 一 种 无 穷 无 尽 的 数 
据 流 形式 。 

(2) 计算 分 析 要 求实 时 性 ,快速 响应 、 低 延迟 性 。 

(3) 数据 量 大 ,但 不 看 重 数据 的 存储 ,而 强调 数据 的 即时 处 理 分 析 。 

(4) 看 重 数据 整体 的 计算 分 析 结果 ,而 不 关注 个 体 数 据 。 

C5) 数据 元 素 到 达 的 顺序 和 时 序 无 法 预测 或 控制 ,计算 程序 要 能 够 做 出 应 对 。 

显然 ,这 种 数据 流 模式 的 计算 处 理 方式 不 同 于 基于 静态 数据 批 处 理 的 MapReduce Bi 
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, 数据 仓库 监视 、 运 行 和 维 扩 工 具 
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图 2-21 静态 数据 库 工作 流程 


型 ,这 两 种 计算 处 理 过 程 的 对 比 见 图 2-22。MapReduce 是 针对 已 进入 数据 库 的 静态 数据 进 
行 离线 批量 计算 处 理 , 其 计算 结果 也 存 人 静态 数据 库 ， 而 流 计算 则 是 针对 动态 连续 性 数据 
流 进 行 实行 分 析 计 算 ,获得 计算 结果 后 ,数据 要 么 导入 静态 数据 库 , 要 么 丢弃 , 即 数据 一 次 性 
使 用 。 

要 支持 这 样 一 种 数据 流 的 计算 模式 , 流 计算 框架 一 般 包括 包含 三 个 步骤 数据 实时 采 
集 、 数 据 实时 计算 ,实时 查询 服务 (如 图 2-23 所 示 )。 
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图 2-22 MapReduce 与 流 计算 的 对 比 图 2-23 流 计算 框架 





以 如 图 2-24 所 示 的 流 计算 处 理 平台 Storm"" 为 例 ,其 数据 采集 系统 将 实时 数据 (消息 
队列 MetaQ 或 Socket 导 人 数据 .前端 业 务 数据 ,Log 监控 数据 等 ) 通 过 平台 的 数据 接 入 层 
导入 Storm 平台; Storm 实时 处 理 系统 则 承担 数据 实时 计算 分 析 任 务 ; 计算 结果 则 导入 数 
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据 落地 层 (Hadoop 的 HDFS 存储 系统 .MySQL 数据 库 或 Lustre 文 件 系统 ) ,提供 对 用 户 的 
实时 查询 服务 。 另 外 ,Storm 还 有 一 个 元 数据 管理 器 统一 协调 前 端 业务 数据 写 人 ,定义 实 
时 数据 类 型 及 描述 格式 ,并 指导 数据 落地 层 如 何 处 理 结果 数据 。 应 当 注 意 ,Storm 实时 处 
理 系 统 并 不 是 将 所 有 的 实时 数据 都 导入 落地 层 , 大 部 分 无 用 的 实时 数据 在 完成 计算 后 即 


EF 


数据 落地 层 
HDFS(Hadoop) 





图 2-24 Storm 流 计算 平台 框架 





2.3.3 计算 平台 与 引擎 


计算 平台 与 引擎 指 为 大 数据 计算 分 析 提 供 了 技术 标准 、 计 算 架构 ,及 一 系列 开发 技术 和 
工具 的 开发 集成 环境 。 目前 代表 性 的 计算 平台 有 : Hadoop? , Cloudera’ , Spark , 
Storm'? ,以 及 Google 基于 其 一 系列 大 数据 计算 技术 的 商业 平台 。 其 中 , Hadoop 平台 是 目 
前 最 为 广泛 应 用 的 开源 大 数据 计算 平台 , 它 提供 了 一 套 完 整 的 开放 式 计算 架构 ,技术 标准 和 
开发 工具 ,可 以 运行 在 通用 标准 的 廉价 服务 器 集群 上 ,在 学 术 界 和 工业 界 都 拥有 最 多 的 
THES, 

Cloudera 是 一 个 基于 Hadoop 平台 的 大 数据 商业 计算 产品 。Cloudera 目前 提供 一 个 免 
费 的 CDH(Cloudera Distribution Hadoop) 版 本 ,但 不 包括 其 他 Cloudera 开发 的 工具 和 功 
能 库 。Cloudera 商业 版 包括 Cloudera Manager( 提 供 管理 ,监控 ,诊断 ,集成 功能 ) ,海量 日 
志 采 集 系统 Flume, 支 持 定制 数据 发 送 方 (console( 控 制 台 )、RPC(Thrift-RPC) , text CA 3c 
Æ) tail (UNIX tail) ,syslog( 系 统 日 志 , 支 持 TCP 和 UDP 两 种 模式 ) ,exec( 命 令 执行 )) 等 ， 
并 提供 数据 简单 处 理 。Cloudera 还 提供 对 存储 在 Hadoop/ HDFS/HBase 平 台数 据 的 SQL 
查询 工具 Impala ,以 及 Web 管理 器 Hue。 

Spark 是 由 美国 加 州 大 学 伯克利 分 校 AMP Lab 提供 的 一 个 基于 内 存 计 算 模型 的 开源 
大 数据 并 行 处 理 框 架 , 它 可 以 搭建 在 Hadoop 平台 上 ,利用 HDFS 文件 系统 存储 数据 ,但 在 
文件 系统 之 上 构建 了 一 个 弹性 分 布 式 数据 架构 (Resilient Distributed Dataset,RDD) ,用 于 
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支撑 高 效率 的 分 布 式 内 存 计算 。 


Storm 是 一 个 分 布 式 实时 处 理 系 统 ,最 早 由 BackType 公司 开发 ,后 属于 Twitter 所 有 ， 
现在 成 为 Apache 开源 项 目 。 与 MapReduce 模型 将 大 规模 数据 首先 导入 数据 库 然后 再 进 
行 计算 处 理 的 方式 不 同 ,Storm 采用 连续 计算 模型 ,对 输入 数据 流 做 在 线 连 续 处 理 , 计 算 结 
果 也 以 数据 流 的 形式 动态 输出 给 用 户 , 这 就 避免 了 ”MapReduce 离线 批 处 理 模式 带 来 的 严重 
时 延 问题 。 

计算 引擎 为 基于 计算 平台 为 特定 计算 模型 而 设计 和 封装 的 服务 器 端 程序 ,用 于 支撑 特 
定 计算 模式 下 的 后 端的 大 数据 处 理 \ 计 算 和 分 析 任 务 。 比 如 , MapReduce 计算 引擎 提供 大 
数据 的 划分 、 节 点 分 配 、 作 业 调 度 及 计算 结果 融 汇 等 功能 , 直接 支持 上 层 应 用 的 开发 。 
Google 的 交互 式 计算 引擎 采用 Dremel” , PowerDrill* ER ,提供 了 对 大 规模 数据 集 的 快 
速 计算 分 析 ; 开源 的 Apache Drill' 洒 项 目 基于 列 存 储 结构 ,数据 本 地 化 、 内 存 存 驻 等 技术 力 
图 实现 对 大 规模 数据 的 快速 查询 访问 。 

图 并 行 计算 引擎 提供 对 网 路 图 数据 (社交 网 络 、 电 信和 网 络 、 脑 功能 连接 网 络 这 一 类 数据 
常常 可 用 权重 有 向 图 来 表征 ) 的 高 效 计算 处 理 (Google 搜索 引擎 处 理 的 数据 量 中 有 20% 是 
用 图 计算 引擎 来 处 理 ), 这 方面 的 技术 包括 Google 的 Pregel" 中、 开源 技术 的 Hama"? , 
GraphLab59 等 。 

S4CSimple Scalable Streaming System) 中 是 Yahoo! 提供 的 一 个 流 计 算 引 擎 ,最 初 目 
标 是 提高 cost-per-click 广告 点 击 率 问题 ,通过 实时 数据 计算 预测 用 户 对 广告 的 可 能 的 点 击 
行为 。S4 的 设计 理念 如 下 。 

(1) 采用 一 个 部 署 在 普通 硬件 上 的 高 扩展 集群 。 

(2) 在 每 个 处 理 节点 (PE) 使 用 本 地 内 存 ,避免 磁盘 1/0 瓶颈 达到 最 小 化 延迟 。 

(3) 使 用 一 个 去 中 心 的 对 等 架构 : 所 有 节点 提供 相同 功能 和 职责 而 没有 特殊 的 中 心 节 
点 ,大 大 简化 了 部 署 和 维护 。 

(4) 使 用 可 插 拔 架构 ,使 设计 尽 可 能 地 既 可 定制 化 又 具有 弹性 。 

(5) 提供 一 种 简便 易 用 的 编程 接口 (APD 来 处 理 数据 流 。 





2.4 数据 应 用 系统 


2.4.1 大 数据 应 用 领域 


国家 工信部 电子 科技 情报 所 2012 年 的 调查 报告 " 指出 : 2012 年 中 国 大 数据 市 场 规模 
达到 4. 7 亿 元 ,2013 年 大 数据 市 场 迎 来 增 速 为 138.3% 的 飞跃 ,到 2016 年 整个 市 场 规模 逼 
近 百 亿 , 增 长 率 达到 100. 626 (18 2-25)。 大 数据 市 场 中 政府 .互联 网 .电信 人、 金融 4 个 行业 将 
占据 一 半 市 场 份 额 ,其 他 能 源 、 医 疗 、 制 造 业 等 领域 也 具有 可 观 的 份额 (图 2-26) 。 

在 这 4 个 主要 应 用 领域 中 ,互联 网 行业 的 应 用 场景 有 社交 网 络 、 电 子 商务 ,精准 营销 \ 在 
线 音频 视频 业务 、 广 告 监测 等 ; 电信 业主 要 有 实时 营销 、 网 络 监控 、 新 业务 开拓 、 服 务 推送 
等 ; 金融 业 则 包括 股票 债券 分 析 、 险 种 开发 .欺诈 识别 .电子 支付 等 ; 制造 业 应 用 包括 供应 
链 优 化 ,市 场 预 测 、 仓 储 监控 ,企业 管理 系统 等 ,如 图 2-27 所 示 。 

大 数据 的 应 用 领域 和 场景 不 仅 限于 上 述 4 个 行业 ,还 包括 智慧 城市 、 智 能 交通 、 在 线 教 
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图 2-26 中 国 大 数据 市 场 领域 分 布 


制造 ， 8.5% 






































100% i X % ELARG 
83.4% 75 5% 互联 网 大 数据 应 用 i Em 电信 业 大 数据 应 用 
80% 80% 
60% 51.6% % 
39.4% pé Í ] 
40% " A 40% 30.7% 
20% 20% li F 15. m" 
0% 0% 
社交 网 络 B2C 业 务 精准 营销 在 线 音 视 广告 实时 营销 H 新 业务 挖掘 - 
频 业务 ”监测 
100% 金融 业 大 数据 应 用 100% 制造 业 大 数据 应 用 
so». 1809% 73.1% 80%} 72.5% 66.3% 
60% 603% 57.0% 60% Í ] 
4096 | | | | 40% ye 
20% 20% 
0% 0% li 1 
uox 险种 开发 pin id 供应 链 优 化 产品 研发 H 企业 统一 管理 
投资 诈 








2-227 中国 大 数据 4 个 主要 领域 的 应 用 场景 





第 2 章 大 数据 计算 体系 nm 


育 、 医 疗 卫生 、 零 售 业 文化 产业 等 领域 。 图 2-28 给 出 了 大 数据 应 用 行业 和 场景 的 一 个 
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案例 : 基于 大 数据 的 综合 健康 服务 平台 
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图 2-28 大 数据 应 用 行业 和 领域 


2.4.2 大 数据 解决 方案 


在 大 数据 应 用 领域 ,类 似 于 Google, IBM, Oracle, Mik, SAP 这 样 的 行业 领先 公司 , 它 
们 基于 各 自 的 技术 和 产品 提出 了 一 系列 技术 解决 方案 。IBM 公司 早 在 2011 年 即 推出 了 基 
于 Hadoop 平台 的 大 数据 计算 处 理 InfoSphere 3F- $259 (图 2-29) ,这 一 平台 实际 上 包括 4 个 
支持 不 同 模式 的 计算 引擎 : 支持 离线 批 处 理 的 InfoSphere BigInsights, 支 持 流 计算 的 
InfoSphere Streams. ,提供 数据 集成 服务 的 InfoSphere Information Server, 以 及 提供 数据 挖 
掘 分 析 功 能 的 MPP Data Warehouse 子 系统 。 

IBM 大 数据 计算 平台 软件 架构 如 图 2-30 所 示 , 在 下 层 (Open source foundational 
components) 这 一 层 主要 依赖 Hadoop 计算 环境 ,包括 如 下 开源 平台 和 工具 包 。 

(D) Hadoop/HDFS: 支持 MapReduce 批 处 理 计算 的 软件 框架 和 分 布 式 计算 环境 。 

(2) Pig: Hadoop 平台 上 的 一 种 编程 语言 和 运行 环境 。 

(3) Jaql: 基于 JSON(JavaScript Object Notation) 的 一 种 高 级 查询 语言 ,也 支持 SQL 
查询 。 

(4) Hive: 支持 批量 查询 和 分 析 的 数据 仓库 工具 。 

(5) HBase: 基于 列 存储 结构 的 数据 库 软 件 。 

(6) Flume: 一 种 数据 收集 和 加 载 工具 。 

(7) Lucene: 一 种 文本 搜索 和 索引 技术 。 
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H 2-29 IBM InfoSphere 大 数据 平台 


IBM Big Data solutions Client and partner solutions 


IBM Big Data Enterprise Platform 
Big Data tools 
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Big Data toolkits 
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图 2-30 IBM 大 数据 计算 平台 软件 架构 


(8) Avro: 一 种 数据 序列 化 技术 。 

(9) ZooKeeper: Hadoop 平 台 的 资源 调度 管理 器 。 

(10) Oozie: 工作 流 /作业 编排 工具 。 

在 其 上 是 IBM 提供 的 两 种 计算 引擎 ,InfoSphere Streams 用 于 流 数据 计算 ,提供 一 种 高 
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扩展 性 的 处 理 流 数据 的 低 延 迟 平台 ; InfoSphere BigInsight 用 于 支持 批 处 理 计算 ,是 IBM 
管理 和 分 析 互 联网 数据 量 级 别 的 半 结 构 化 和 非 结构 化 数据 的 解决 方案 。InfoSphere 
BigInsights 基于 Hadoop 的 框架 实现 ,集成 了 资源 调配 、 工 作 流 、 安 全 管理 数据 分 析 、 机 器 
学 习 算 法 ,以 及 文本 数据 挖掘 等 功能 。InfoSphere BigInsights 有 基本 版 和 企业 版 两 个 版 
本 ,其 功能 配置 如 图 2-31 所 示 。 


Enterprise class 














Breadth of capabilities 


Æ 2-31 InfoSphere BigInsights 基本 版 与 企业 版 


图 2-32 展示 了 该 计算 平台 上 的 数据 流 过 程 。 用 户 数 据 或 业务 数据 通过 数据 采集 层 导 
人 平台 ,首先 经 过 InfoSphere Streams 流 计算 引 擎 处 理 ,这 包括 数据 实时 计算 分 析 、 实 时 和 
历史 数据 的 可 视 化 ,以 及 需要 保持 的 数据 注入 后 端 数据 库 。 后 台 的 InfoSphere BigInsights 
引擎 则 完成 基于 数据 库 静 态 数据 的 数据 集成 ,数据 挖掘 \ 机 器 学 习 、 统 计 建 模 等 任务 ,并 提供 
数据 服务 支持 。 


实时 和 历史 数据 
的 可 视 化 
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图 2-32 IBM 大 数据 平台 上 的 数据 流 过 程 
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Oracle( 甲 骨 文 ) 公 司 则 针对 企业 海量 数据 快速 处 理 的 需求 提出 了 软 硬 一 体 化 的 大 数据 
技术 解决 方案 (图 2-33), Oracle 的 解决 方案 把 数据 处 理 过 程 分 为 捕获 ,组织 分析、 决策 
4 个 阶段 ,针对 每 个 阶段 则 结合 Oracle 自身 在 大 型 数据 库 系统 在 硬件 和 软件 方面 的 产品 优 


势 提 出 了 具体 可 供 选择 的 方案 。 
B 软 硬 一 体 优化 集成 的 Oracle 大 数据 综合 解决 方案 
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图 2-33 Oracle 的 软 硬 一 体 化 大 数据 解决 方案 


比如 ,在 捕获 和 数据 组 织 阶段 ,Oracle 提出 了 基于 其 高 性 能 数据 库 服 务 器 Sun X4270 
M2 的 数据 存储 管理 系统 (图 2-34), 这 一 存储 平台 上 同时 运行 Oracle NoSQL 数据 库 和 
CHD(Cloudera Hadoop Distribution) 以 提供 海量 数据 的 MapReduce 计算 。 


E Data Appliance 





“硬件 部 分 

* 18 Sun X4270 M2 服务 器 
* 每 台 2 CPUsX6 核 

* 每 台 48 GB 内 存 (可 扩展 ) 

* 12X3TB 磁盘 空间 

* 40Gb InfiniBand 

* 10Gb 以 太 网 








* 软件 部 分 
* Oracle Linux /Oracle JDK 

* Cloudera Hadoop Distribution 
* Cloudera Manager 

* Open-source R distribution 

* Oracle NoSQL Database 
Community Edition *** 





Raw Storage: 648TB 
Core Count: 2164 











Hi 2-34 Big Data Appliance 数据 存储 管理 系统 


在 数据 分 析 和 决策 阶段 , Oracle 除 提 供 传 统 的 OLTP (On-Line Transaction 
Processing) fll ODSCOperational Data Store) 工 具 外 ,还 提供 一 个 R 引擎 支持 数据 的 快速 分 
析 与 挖掘 (图 2-35). 

图 2-36 总 结 了 Oracle 大 数据 平台 各 个 阶段 提供 的 主要 功能 和 关键 技术 。 可 以 看 出 ， 
Oracle 的 技术 解决 方案 较 好 地 结合 了 它 所 具有 的 硬件 和 软件 优势 ,能 够 提供 一 个 处 理 能 力 
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强大 的 高 性 能 大 数据 计算 平台 。 但 其 应 用 范围 受 限 于 Oracle 产品 高 昂 的 成 本 及 绑 定 于 
Oracle 软 硬 件 平台 的 缺点 。 


客户 端 主机 Oracle Oracle | 
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图 2-35 数据 分 析 R 引擎 
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图 2-36 Oracle 大 数据 平台 总 体 架 构 


微软 公司 也 基于 其 Azure 云 平台 提供 了 一 个 集成 Hadoop 生态 系统 的 大 数据 解决 方案 
Microsoft Azure HDInsight^? 。 这 一 方案 是 基于 Hortonoworks Data Platform(HDP) , 包 
Ti Spark, Storm, HBase, Pig, Hive, Sqoop, Oozie, Ambari 等 组 件 . 支 持 MapReduce 批 处 理 、 
流 数据 处 理 及 内 存 计算 模式 。 操 作 系统 可 以 部 署 成 Windows 集群 ,也 可 以 部 署 成 Linux 集 
群 。 表 2-3 是 HDInsight 在 两 个 平台 上 部 署 的 比较 。 


表 2-3 HDinsight 部 署 配置 : Linux vs. Windows 














配置 参数 Hadoop on Linux Hadoop on Windows 
soy. | RS es Eee eren EE 
(LTS) 
集群 类 型 Hadoop Hadoop, HBase. Storm 
Azure Management Portal, Azure | Azure Management Portal, Azure CLI, Azure 
NR CLI, Azure PowerShell PowerShell, HDInsight . NET SDK 
用 户 界面 Ambari Cluster Dashboard 
远程 工具 Secure Shell(SSH) Remote Desktop Protocol(RDP) 
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微软 的 Microsoft Azure HDInsight 解决 方案 的 技术 架构 由 三 部 分 组 成 : 运行 于 后 台 
的 Windows Azure 云 计算 系统 ,Azure 支持 的 Hadoop 虚拟 机 ,及 部 署 在 前 端 或 本 地 集群 的 
HDInsight 平台 ,如 图 2-37 所 示 。 




















图 2-37 Microsoft Azure HDInsight 技术 架构 


Windows Azure 基于 云 架构 提供 数据 服务 (数据 存储 管理. 计算. 查询、 传输) .网络 管 
理应 用 支撑 等 功能 (Azure 的 组 成 体系 见 图 2-38); Azure Virtual MachineCwith Hadoop) 
提供 Linux/Hadoop 虚拟 开发 运行 环境 ; HDInsight 则 是 一 个 运行 在 本 地 计算 机 上 的 即 部 
署 使 用 的 Hadoop 集成 环境 ,负责 与 后 台 的 Azure 平台 相连 ,并 提供 Hadoop 平台 的 各 项 功 
能 及 C# Java.. NET 编程 开发 工具 包 。 用 户 可 在 HDInsight 上 完成 结构 化 、. 半 结构 化 、 非 
结构 化 数据 的 分 析 处 理 。 

德国 SAP 公司 的 大 数据 解决 方案 主要 集中 在 企业 信息 数据 库 及 数据 仓库 层面 3, 其 
中 ,数据 仓库 解决 方案 主要 由 实时 数据 平台 HANA, 分 析 型 数据 库 SAP Sybase IQ 和 交易 
型 数据 库 Syabse ASE 提供 ,企业 信息 管理 系统 主要 由 SAP Information Steward、SAP 
NetWeave、 企 业内 容 管 理 (ECM) 来 支撑 。 

SAP HANA 具备 极 强 的 数据 分 析 能 力 ,提供 多 用 途 的 内 存 应 用 设备 ,企业 可 以 利用 它 
即时 掌握 业务 运营 情况 ,从 而 对 所 有 可 用 的 数据 进行 分 析 , 并 对 快速 变化 的 业务 环境 做 出 迅 
速 响应 。SAP HANA 提供 灵活 .节约 高效、 实时 的 方法 管理 海量 数据 ,不 必 运 行 多 个 数据 
仓库 .运营 和 分 析 系 统 。 企 业 通过 SAP HANA 可 直接 访问 运营 数据 ,可 以 近乎 实时 地 将 主 
要 交易 表格 同步 到 内 存 中 ,以 便 在 分 析 或 查找 时 能 够 轻松 对 这 些 表 进 行 访问 。 

SAP Sybase IQ 是 面向 大 数据 的 高 级 分 析 工 具 , 它 打破 数据 分 析 的 壁垒 ,并 将 其 集成 到 
企业 级 分 析 流程 中 。SAP Sybase IQ 采用 三 层 架 构 : 四 基本 层 数据 库 管理 系统 CDBMS) ,这 
是 一 个 全 共享 MPP 分 析 DBMS 引擎 ,是 它 最 大 的 独特 优势 ; @ 分 析 应 用 程序 服务 层 , 提 供 
C++ 和 Java 数据 库 内 API, 并 可 实现 与 外 部 数据 源 的 集成 ,包括 4 种 与 Hadoop 的 集成 方法 ; 
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图 2-38 Microsoft Azure 组 成 架构 


OTJE Sybase IQ 生态 系统 ,由 4 个 强大 且 不 同 的 合作 伙伴 和 认证 ISV 应 用 程序 组 成 。 

Sybase IQ 提供 了 一 个 统一 的 DBMS 平台 ,可 使 用 各 种 算法 分 析 不 同 的 结构 化 或 半 结 
构 化 数据 。Sybase IQ 15.4 通过 引入 以 下 方面 扩展 了 上 述 功能 : 自 带 的 MapReduce API, 
全 面 且 灵活 的 Hadoop 集成 .支持 预测 模型 标记 语言 (PMML) ,以 及 经 过 扩展 的 统计 与 数据 
挖掘 算法 库 , 这 些 算法 充分 利用 了 基于 Sybase IQ PlexQ 技术 的 大 规模 并 行 处 理 网 格 所 带 
来 的 分 布 式 查询 处 理 能 力 。 

Sybase ASE 全 称 为 Sybase Adaptive Server Enterprise, 能 够 处 理 超大 数据 集 的 关系 型 
数据 库 (RDBMS) 。 它 是 基于 客户 /服务 器 体系 结构 的 数据 库 , 具 有 多 线程 .高 性 能 .事件 驱 
动 .可 编程 的 特点 , 它 不 仅 提供 了 数据 库 能 力 , 还 提供 了 自我 管理 .自动 故障 切换 支持 以 及 性 
能 优化 调整 特性 ,可 以 大 量 节约 运行 成 本 。 

中 国电 子 商务 巨头 阿里 巴巴 公司 于 2016 年 1 月 发 布 了 一 站 式 大 数据 平台 “ 数 加 ”9， 
这 一 平台 集合 了 阿里 巴巴 十 年 的 大 数据 能 力 以 及 上 万 名 工程 师 的 开发 经 验 , 为 数据 存储 、 管 
理 和 应 用 提供 一 站 式 的 解决 方案 ,该 平台 首 版 产品 覆盖 数据 采集 .计算 引擎 ,数据 加 工 、 数 据 
分 析 、 机 器 学 习 、 数 据 应 用 等 数据 生产 全 链条 (图 2-39) 。 
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图 2-39 阿里 大 数据 平台 数据 流 


数 加 平台 由 大 数据 计算 服务 (MaxCompute)、 分 析 型 数据 库 (Analytic DB)、 流 计算 
(StreamCompute) 共 同 组 成 了 底层 强大 的 计算 引擎 ,速度 更 快 成 本 更 低 。 在 计算 引擎 之 上 ， 
数 加 提供 了 丰富 的 云端 数据 开发 套件 ,包括 数据 集成 ,数据 开发 .调度 系统 .数据 管理 . 运 维 
视屏 .数据 质量 ,任务 监控 等 在 内 。 数 加 还 计划 向 有 数据 开发 能 力 的 团队 开放 ,这 些 团队 可 
入 驻 数 加 平台 ,借助 数 加 提供 的 工具 为 各 行 各 业 提供 数据 服务 开发 。 具 体 而 言 ,阿里 大 数据 
平台 提供 的 功能 和 服务 如 下 。 

(1) 数据 采集 方面 : Datahub 为 用 户 提供 实时 数据 发 布 和 订阅 功能 。 

(2) 底层 计算 引擎 : 由 大 数据 计算 服务 MaxCompute( 原 ODPS)、 分 析 型 数据 库 
Analytic DB, jitt fË StreamCompute 共同 组 成 。 

(D 大 数据 计算 服务 可 6 小 时 处 理 100PB 数据 ,相当 于 1 亿 部 高 清 电 影 ; 集群 规模 过 万 
台 , 并 支持 多 集群 联合 计算 。 做 到 了 速度 更 快 ,成 本 更 低 。 

© 分 析 型 数据 库 Analytic DB 可 实现 对 数据 的 实时 多 维 分 析 , 百 亿 量 级 多 维 查 询 只 
需 100ms。 

© 流 计算 StreamCompute 对 实时 数据 进行 分 析 , 具 有 低 延 时 、 高 性 能 的 特点 。 每 秒 查 
询 率 可 以 达到 千 万 级 ,日 均 处 理 PB 量 级 的 数据 。 

(3) 数据 分 析 方 面 : 

(D Mobile Analytics 让 开发 者 可 快速 搭建 日 志 采 集 分 析 系 统 , 从 而 为 用 户 提供 个 性 化 
服务 。 

@ DataV 通过 数 加 BI 报表 产品 ,三 分 钟 即 可 完成 海量 数据 的 分 析 报 告 。 产 品 支持 多 
种 云 数据 源 , 提 供 近 二 十 种 可 视 化 效果 。 

© 基于 DataV , 数 加 还 发 布 了 面向 政府 的 行业 应 用 产品 “和 郡 县 图 治 ,通过 这 款 产品 ,县 
长 可 以 在 一 个 屏幕 下 统 览 全 县 各 项 经 济 民生 数据 ,为 政府 决策 提供 辅助 。 

(4) 机 器 学 习 方面 : 

(D 可 基于 海量 数据 实现 对 用 户 行为 .行业 走势 .天 气 、 交 通 等 的 预测 。 
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O 产品 还 集成 了 阿里 巴巴 核心 算法 库 ,包括 特征 工程 ,大 规模 机 器 学 习 、 深 度 学 习 等 。 

CD 提供 了 全 面 业 务 应 用 支持 ,包括 规则 引擎 .推荐 引擎 ,文字 识别 、 智 能 语音 交互 等 。 
规则 引擎 是 一 款 用 于 解决 业务 规则 频繁 变化 的 在 线 服 务 , 可 通过 简单 组 合 预定 义 的 条 件 因 
子 编写 业务 规则 ,并 做 出 业务 决策 。 而 文字 识别 提供 自然 场景 下 拍摄 的 图 片 中 英文 文字 检 
测 、 识 别 以 及 常见 的 证 件 类 检测 和 识别 。 智 能 语音 交互 基于 语音 和 自然 语言 技术 构建 的 在 
线 服 务 ,为 智能 手机 、 智 能 电视 以 及 物 联 网 等 产品 提供 “能 听 、 会 说 , 懂 你 ? 式 的 智能 人 机 交互 
体验 。 

阿里 基于 大 数据 分 析 的 业务 平台 架构 如 图 2-40 所 示 , 其 底层 的 计算 平台 包括 基于 
Hadoop 支持 批 处 理 数据 的 云梯 1, 提 供 ODPS(Open Data Processing Service) 的 云梯 2 , 基 
于 Storm 的 实时 计算 引擎 Galaxy 和 实时 调度 引擎 Garuda ,分 布 式 存储 系统 HBase, 通 用 关 
系数 据 库 OceanBase; 应 用 平台 层 则 提供 元 数据 数据 同步 .任务 调度 .数据 质量 控制 等 功 
能 ; 数据 服务 层 则 完成 数据 封装 ,以 数据 产品 形式 (如 TCIF 淘宝 用 户 数据 、 地 理 服 务 数据 、 
ODS 数据 ) 提 供给 具体 业务 应 用 ; 最 上 面 的 业务 层 则 包括 目前 使 用 到 大 数据 服务 的 蚂蚁 金 
服 、 淘 数据 、 数 据 魔方 等 阿里 业务 系统 。 





图 2-40 阿里 云 大 数据 的 业务 平台 架构 


阿里 云梯 的 分 布 式 计算 架构 见 图 2-41。 数 据 来 自 于 阿里 大 数据 平台 的 Oracle 数据 库 、 
MySQL 数据 库 、 日 志 系 统 或 息 虫 程序 产生 的 数据 ; 经 过 数据 交换 层 (DataExchange， 
DBSync,TimeTunnel) 进 入 计算 平台 云梯 1, 完 成 诸如 离线 批 处 理 .实时 流 数据 计算 .数据 查 
询 转换 等 计算 任务 ; 计算 完成 后 ,在 数据 平台 层 对 数据 进行 打包 封装 ,以 数据 产品 形式 提交 
给 支付 宝 .搜索 排行 引擎 .推荐 系统 ,广告 业务 `.B2B、 数 据 魔方 等 业务 系统 使 用 。 

综合 上 述 几 个 典型 的 商业 大 数据 应 用 解决 方案 ,其 结合 各 自 的 技术 产品 和 客户 对 象 , 提 
出 了 有 特点 的 技术 解决 方案 。IBM InfoSphere 的 特点 是 提供 基于 Hadoop 平台 的 一 个 系统 
集成 方案 ,充分 利用 Hadoop 生态 环境 所 提供 的 各 类 计算 工具 实现 对 批 处 理 和 流 数据 的 计 
算 分 析 ; Oracle 公司 的 Big Data Appliance 方案 则 强调 软 硬 一 体 化 综合 体系 ,依赖 Oracle 
的 高 性 能 数据 库 服 务 器 完成 对 海量 数据 的 处 理 ; 微软 的 方案 则 是 基于 其 Azure 云 架 构 提供 
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图 2-41 阿里 云梯 分 布 式 计算 平台 架构 


后 端 数据 服务 (数据 存储 管理 .计算 ,查询 .传输 等 ), 前 端 则 巾 HDInsight 提供 一 个 
Windows 平台 上 的 Linux/Hadoop 虚拟 运行 环境 ,支持 Hadoop 平台 功能 及 C £ , Java, 
. NET 开发 环境 ; SAP 的 大 数据 解决 方案 采用 内 存 计算 模式 ,通过 SAP HANA 极 强 的 数 
据 分 析 能 力 对 快速 变化 的 企业 业务 运营 环境 做 出 迅速 响应 ; 中 国 阿里 巴巴 的 大 数据 分 析 平 
人 台 则 强调 针对 其 业务 应 用 对 各 类 营运 数据 进行 打包 封装 ,以 数据 产品 形式 提交 给 支付 宝 、 搜 
索 排行 引擎 ,推荐 系统 、 广 告 业务 ,B2B、 数 据 魔方 等 业务 系统 使 用 。 

除 上 述 商业 解决 方案 之 外 ,基于 开放 式 架 构 以 Hadoop 平台 为 基础 的 开源 技术 解决 方 
案 也 得 到 业界 的 认可 和 广泛 使 用 。 代 表 性 的 应 用 有 Facebook 的 Hadoop 数据 处 理 集群 ， 
Twitter 基于 Storm 的 流 数据 处 理 系 统 , LinkedIn 基于 Hadoop 的 开源 Espresso, 美 国 
MetLife 保险 公司 基于 开源 分 布 式 数据 库 MongoDB 构建 的 客户 分 析 系 统 等 。 
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习题 


l. 阐述 大 数据 计算 系统 涉及 的 三 个 基本 系统 及 其 含义 。 
2. 简 述 大 数据 存储 架构 的 构成 ,并 用 图 进行 展示 说 明 。 
3. 美国 国家 标准 学 会 把 数据 模型 定义 为 三 个 层次 ,分 别 为 哪 三 个 层次 ? 阐述 每 个 层次 


的 含义 。 


4. 关系 型 数据 库 面临 的 挑战 有 哪些 ? 
5. 按照 存储 架构 设计 ,NoSQL 数据 库 有 哪 4 种 分 类 ? 
6. 列举 两 种 在 大 数据 计算 分 析 中 主要 用 到 的 计算 模型 。 








3.1 大 数据 标准 体系 


近年 来 随 着 大 数据 计算 的 兴起 ,国际 标准 化 组 织 ISO/IEC .国际 电信 联盟 ITU、 美 国 国 
家 技术 标准 研究 院 NIST 和 我 国 工信部 、 全 国信 息 技 术 标 准 化 技术 委员 会 均 开 展 了 大 数据 
计算 标准 的 研究 。ISOVIEC JCTI S32(ISO/IEC 联合 技术 委员 会 第 32* 数 据 管 理 与 交换 ”分 
委员 会 ) 趾 是 一 个 致力 于 研制 信息 系统 环境 及 之 间 的 数据 管理 和 交换 标准 、 为 跨行 业 领 域 协 
调 数 据 管 理 提供 技术 性 支持 的 国际 组 织 。 其 主要 工作 内 容 包 括 : 协调 现 有 和 新 生 数 据 标准 
化 领域 的 参考 模型 和 框架 ; 负责 数据 域 , 数 据 类 型 和 数据 结构 及 相关 的 语义 ; 负责 用 于 持 
久 存 储 、 并 发 访问 、 并 发 更 新 和 数据 交换 的 语言 .服务 和 协议 等 标准 ; 负责 用 于 构造 .组 织 和 
注册 元 数据 及 共享 和 互 操作 相关 的 其 他 信息 资源 (电子 商务 等 ) 的 方法 、 语 言 服务 和 协议 的 
制定 。SC32 目前 下 设 4 个 工作 组 和 几 个 研究 组 ,其 主要 工作 范围 如 下 。 

1. WGICWork Group 1) : 电子 业务 


工作 范围 为 研制 各 组 织 使 用 的 信息 系统 间 全 球 互 操作 所 需 的 开放 电子 数据 交换 方面 的 
通用 IT 标准 ,包括 商务 和 信息 技术 两 方面 的 互 操作 标准 。 

2. WG2(Work Group 2): 元 数据 

工作 范围 为 研制 .开发 和 维护 有 利于 规范 和 管理 元 数据 .元 模型 和 本 体 的 标准 ,此 类 标 
准 有 助 于 理解 和 共享 数据 ,信息 过 程 、. 互 操作 性 .电子 商务 以 及 基于 模型 和 基于 服务 的 开发 ， 
包括 : 建议 用 于 规定 和 管理 元 数据 、 元 模型 和 本 体 的 框架 ; 规定 和 管理 元 数据 、 元 模型 和 本 
Jk; 规定 和 管理 过 程 、 服 务 和 行 数据 ; 开发 管理 元 数据 、 元 模型 和 本 体 的 机 制 ,包括 注册 和 
存储 ; 开发 交换 元 数据 元 模型 和 本 体 的 机 制 ,包括 基于 互联 网 .局 域 网 等 的 语义 等 。 

3. WG3(Work Group 3): 数据 库 语言 


工作 范围 为 动态 规定 、 维 护 和 描述 多 用 户 环境 中 的 数据 库 结构 和 组 件 制定 和 维护 语言 
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标准 ; 通过 规定 事务 的 提交 、 恢 复 和 安全 机 制 提供 额外 的 对 数据 库 管 理 系 统 完 整 性 的 支持 ; 
为 存储 、 访 问 和 处 理 多 并 发 用 户 数据 库 制定 和 维护 语言 标准 ; 为 其 他 标准 编程 语言 提供 开 
发 接口 ; 为 描述 数据 类 型 和 行为 的 其 他 标准 提供 访问 接口 或 为 应 用 开发 提供 数据 库 组 件 。 

4. WG4(Work Group 4): SQL 多 媒体 和 应 用 包 

工作 范围 为 规定 各 种 应 用 领域 使 用 的 抽象 数据 类 型 的 定义 。 抽 象 数据 类 型 定义 是 使 用 
数据 库 语 言 SQL 标准 中 提供 的 用 户 定义 类 型 机 制 来 规定 的 ,包括 全 文 、 空 间 、 静 态 图 像 、 静 
态 图 形 、 动 画 、 视 频 、 音 频 、 地 震 和 音乐 等 数据 包 。 为 应 用 API 需求 进行 数据 管理 ,其 他 数据 
包 使 用 SQL 机 制 的 定义 ,而 不 是 用 户 自 定义 类 型 。 

2012 年 ,SC32 在 柏林 全 会 上 决定 成 立 下 一 代 分 析 和 大 数据 研究 组 (SG Next Generation 
Analytics and Big Data) ,该 研究 组 主要 的 研究 内 容 为 下 一 代数 据 分 析 、 社 会 分 析 和 底层 技 
术 领 域 中 潜在 的 标准 化 需求 。SC32 其 他 的 研究 组 还 包括 云 计 算 元 数据 研究 组 (SG 
Metadata for Cloud Computing) 和 基于 事实 基础 的 建 模 元 模型 研究 组 (SG Metamodel for 
Fact Based Modelling) 。 

2013 年 11 H . ISO/IEC JTC1 新 成 立 了 负责 大 数据 国际 标准 化 的 研究 小 组 ISO/IEC 
JTC1 SG2, 由 美国 国家 标准 与 技术 研究 院 (NIST) 专 家 Wo Chang 担任 召集 人 中 , 2014 年 ， 
ISO/IEC JTC1 SG2 的 工作 重点 包括 : 调研 ISO/IEC JTC 在 大 数据 领域 的 关键 技术 ,参考 
模型 以 及 用 例 等 标准 基础 ; 确定 大 数据 领域 应 用 需要 的 术语 与 定义 ; 评估 分 析 当 前 大 数据 
标准 的 具体 需求 ,提出 ISO/IEC JTC1 大 数据 标准 优先 顺序 ; 向 2014 年 ISO/IEC JTC1 全 
会 提交 大 数据 建议 的 技术 报告 和 其 他 研究 成 果 。2014 年 ,根据 ISO/IEC JCTI SG2 的 建议 
新 成 立 了 负责 大 数据 国际 标准 化 的 大 数据 工作 组 (ISO/IEC JTC1 WG9)。 

ITU ££ 2013 年 11 月 发 布 了 题目 为 “大 数据 : 今天 巨大 ,明天 平常 "的 技术 观察 报 
HON ,这 个 技术 观察 报告 分 析 了 大 数据 相关 的 应 用 实例 ,指出 大 数据 的 基本 特征 、 促 进 大 数 
据 发 展 的 技术 ,在 报告 的 最 后 部 分 分 析 了 大 数据 面临 的 挑战 和 ITU-T 可 能 开展 的 标准 化 工 
作 。 在 这 份 报告 中 ,特别 提 及 了 NIST 和 JTC1/SC32 正在 开展 的 工作 。 从 ITU-T 的 角度 
来 看 ,大 数据 发 展 面临 的 最 大 挑战 包括 数据 保护 .隐私 和 网 络 安全 ,法 律 和 法 规 的 完善 。 根 
ji ITU-T 现 有 的 工作 基础 ,开展 的 标准 化 工作 包括 : 高 吞吐 量 、 低 延迟 .安全 .灵活 和 规模 
化 的 网 络 基础 设施 ; 汇聚 数据 机 和 匿名 ; 网 络 数据 分 析 ; 垂直 行业 平台 的 互 操作 ; 多 媒体 
分 析 ; 开放 数据 标准 。 

目前 ,ITU-T 的 大 数据 标准 化 工作 主要 是 在 SG13( 第 13 研究 组 ) 开 展 四 ,具体 包括 该 
研究 组 下 设 的 Q2 课题 组 .Q17 课题 组 ,以 及 Q18 课题 组 ,由 Q17 牵头 开展 ITU-T 大 数据 
标准 化 路 标的 制定 工作 并 负责 向 TSAG( 电 信和 标准 化 咨询 委员 会 ) 汇 报 。 其 中 ,Q2 涉及 的 研 
究 课题 为 “针对 大 数据 的 物 联网 具体 需求 和 能 力 要 求 ”其 主要 内 容 为 针对 大 数据 在 物 联 网 
数据 传输 ,数据 处 理 ,数据 存储 .访问 控制 .数据 查询 和 数据 验证 等 方面 的 具体 要 求 和 能 力 要 
求 ,目前 处 于 标准 研制 阶段 。 

Q17 涉及 的 研究 课题 为 “基于 云 计算 的 大 数据 需求 和 能 力 ”, 主 要 研究 如 何 使 用 云 计算 
方案 来 解决 目前 大 数据 应 用 中 所 存 的 各 项 挑战 ,包括 大 数据 定义 、 大 数据 特性 、 大 数据 功能 、 
大 数据 与 云 计 算 的 关系 、 从 电信 和 角度 看 基于 云 计 算 的 大 数据 能 力 要 求 、 用 户 案例 以 及 应 用 场 
景 等 ,该 标准 已 于 2015 4E 8 月 发 布 。Q17 的 另 一 课题 “大 数据 交换 要 求 和 框架 ”主要 内 容 为 
描述 大 数据 交换 应 用 场景 、 用 户 案例 ,差异 分 析 、 需 求 和 框架 ,2016 年 完成 标准 报批 。 
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Q18 开展 的 研究 课题 为 “大 数据 即 业务 的 功能 架构 ”, 主 要 目的 是 描述 使 用 云 计 算 来 构 
建 大 数据 业务 架构 的 方法 ,具体 包括 功能 架构 、 功 能 部 件 以 及 部 件 接口 (参考 点 ) 。 该 标准 与 
Q17 的 “基于 云 计算 的 大 数据 需求 和 能 力 ” 课 题 互 为 姊妹 篇 ,也 是 该 标准 的 后 续 阶 段 。 

美国 国家 标准 与 技术 研究 院 NIST 建立 了 大 数据 公共 工作 组 (NBD-PWG), 其 工作 内 
容 是 建立 产业 界 、 学 术 界 和 政府 的 公共 环境 达成 共识 ,完成 术语 定义 、 安 全 参考 架构 和 技术 
路 线 图 ,提出 数据 分 析 技 术 应 满足 的 互 操 作 性 、 可 移植 性 、 可 用 性 和 扩展 性 要 求 , 提 出 安全 有 
效 支持 大 数据 应 用 的 技术 基础 设施 框架 。NBD-PWG 是 一 个 开放 工作 组 ,下 设 术 语 和 定义 、 
用 例 和 需求 .安全 和 隐私 ,参考 体系 架构 和 技术 路 线 图 5 个 分 组 ,目前 已 初步 完成 (大 数据 互 
操作 框架 : 第 1 卷 、 定 义 ) 中 《大 数据 互 操作 框架 : 第 2 卷 。 术 语 ) 中 《大 数据 互 操 作 框架 : 
第 3 卷 ” 需求 ) 中 《大 数据 互 操 作 框 架 : 第 5 卷 架构 综述 白皮书 》 《大 数据 互 操作 框 
架 : 第 6 卷 参考 架构 7] 和 《大 数据 互 操作 框架 : 第 7 卷 ” 技 术 路 线 图 ) 中 一 系列 技术 标准 
文档 ,初步 提供 了 一 个 大 数据 技术 标准 框架 。 

NBD-PWG 的 文档 外 提出 了 大 数据 技术 架构 参考 模型 (图 3-1) , 它 由 两 个 维度 组 成 : 信 
息 链 (垂直 方向 ) 和 价值 链 ( 水 平方 向 )。 在 信息 链 维 度 上 ,价值 通过 数据 采集 、 集 成 .分析 、 使 
用 结果 来 实现 ; 在 价值 链 维 度 上 ,价值 通过 为 大 数据 应 用 的 实施 提供 拥有 或 运行 大 数据 的 
网 络 .基础 设施 ,平台 、 应 用 工具 以 及 其 他 IT 服务 来 实现 。5 个 主要 的 架构 模块 代表 在 每 个 
大 数据 系统 中 存在 的 不 同 技术 角色 , 即 数据 提供 者 ,数据 消费 者 、 大 数据 应 用 提供 者 、 大 数据 
框架 提供 者 、 系 统 协调 者 。 另 外 两 个 架构 模块 是 安全 隐私 和 管理 构件 ,为 大 数据 系统 其 他 模 
块 提供 服务 和 功能 ,集成 在 大 数据 技术 解决 方案 中 。 
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图 3-1 大 数据 技术 架构 参考 模型 
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NBD-PWG 的 文档 5 对 大 数据 计算 体系 中 的 主要 角色 包括 系统 领导 者 、 数 据 提供 者 、 
安全 和 隐私 角色 、 大 数据 应 用 提供 者 ,大 数据 基础 框架 提供 者 、 数 据 消费 者 .管理 角色 、 安 全 
及 隐私 管理 角色 进行 了 定义 (图 3-2). 


Big Data Application Provider 
actors: 


Big Data Framework Provider 


Reference 


Architecture 
Taxonomy 4 


Data Consumer actors 


W wanagement Fabric actors 
Security and Privacy Fabric > in f 
ctoi 





图 3-2 大 数据 参考 架构 主要 角色 


L. 系统 领导 者 (System Orchestrator) 

该 角色 主要 由 商务 领导 人 ,咨询 专家 、 数 据 科 学 家 、 信 息 系统 架构 师 、. 软 件 架构 师 .安全 及 
隐私 系统 架构 师 .网络 架构 师承 担 ,其 作用 主要 为 制定 策略 、 确 定 管控 ,架构 ,资源 调配 及 商业 需 
求 ,监督 管理 整个 过 程 以 保证 上 述 需 要 得 到 满足 。 系 统领 导 者 的 角色 定义 和 相关 任务 见 图 3-3。 


System Orchestrator actors: 





Activities \ 

» Business Ownership Requirements 
and Monitoring 

» Governance Requirements and 
Monitoring 

» Data Science Requirements and 

Monitoring 

» System Architecture Requirements 

and Monitoring 











33 ”系统 领导 者 角色 定义 


2. 数据 提供 者 (Data Provider) 

该 角色 主要 由 企业 、 公 共 机 构 ,研究 科学 家 、 搜 索引 擎 、 各 种 互联 网 应 用 、 网 络 操 作 员 以 
及 终端 用 户 来 承担 ,其 作用 主要 是 为 大 数据 计算 系统 外 部 的 数据 提供 数据 源 。 数 据 模块 包 
含 业务 ,感知 互联 网 和 第 三 方 数据 4 个 种 类 。 其 中 ,业务 数据 提供 者 提供 传统 信息 系统 中 
存在 并 动态 产生 的 大 量 的 结构 化 数据 和 异 构 数 据 ; 感知 数据 提供 者 提供 由 物 联 感知 设备 实 
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时 生成 的 大 量 数据 ; 互联 网 数据 提供 者 提供 由 互联 网 应 用 快速 生成 的 大 量 的 非 结构 化 数 
据 ; 而 第 三 方 数据 提供 者 则 提供 政府 、 学 术 界 、 商 业 机 构 逐 步 对 外 开放 的 一 些 可 管理 ,可 信 
的 数据 集 。 数 据 提供 者 的 角色 定义 和 相关 任务 见 图 3-4。 


Data Provider actors: 







Activities 
» Data Collection from Sources 
» Data Persistence 
» Data Scrubbing 
» Data Annotation/ Metadata Creation 
» Access Rights Management 
» 
» 
» 
» 









Access Policy Contracts. 
Data Distribution APIs 
Capabilities Hosting 

Data Availability Publication 


图 3-4 数据 提供 者 角色 定义 
3. 大 数据 应 用 提供 者 (Big Data Application Provider) 
该 角色 主要 由 应 用 系统 专家 平台 专家 及 咨询 顾问 来 承担 ,其 作用 主要 为 完成 系统 领导 者 


所 定义 的 数据 生命 周期 中 的 各 个 阶段 任务 及 安全 和 隐私 要 求 ,他 们 需要 把 通用 的 大 数据 技术 
框架 转化 为 针对 实际 的 数据 分 析 系 统 。 大 数据 应 用 提供 者 的 角色 定义 和 相关 任务 见 图 3-5。 





Big Data Applicatioi 


cati st 





n Provider actors: 








图 3-5 大 数据 应 用 提供 者 角色 定义 


4. 大 数据 基础 框架 提供 者 (Big Data Framework Provider) 

该 角色 包括 室内 计算 机 集群 .数据 中 心 . 云 平台 提供 者 等 ,其 作用 主要 为 提供 大 数据 计 
算 系 统 所 需要 的 各 类 资源 .包括 基础 设施 (处 理 器 、 网 络 带 宽 、 存 储 空间 、 运 维系 统 等 ) 数据 
平台 (物理 存储 设备 文件 系统 ) 以 及 计算 处 理 框 架 ( 各 类 数据 建 模 分析、 计算 处 理 、 应 用 开 
发 SDK 或 服务 等 )。 大 数据 基础 框架 提供 者 的 角色 定义 和 相关 任务 见 图 3-6。 





Big Data Framework Provider actors: 


> In-house C 







sters 


> Cloud Providers Activities 
» Infrastructure Frameworks 
» Data Platforms Frameworks 
» Processing Frameworks 


图 3-6 大 数据 基础 框架 提供 者 角色 定义 
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5. 数据 消费 者 (Data Consumer) 


该 角色 包括 终端 用 户 、 研 究 人 员 、 其 他 应 用 及 系统 等 从 大 数据 处 理 获 得 价值 输出 的 一 
方 。 在 处 理 过 程 中 ,数据 提供 者 把 源 数据 输入 给 大 数据 应 用 提供 者 ,后 者 完成 对 数据 的 计算 
处 理 后 ,把 使 用 价值 加 入 到 输出 结果 中 ,这 就 是 数据 消费 者 获得 的 数据 。 数 据 消费 模块 可 分 
解 为 业务 应 用 和 数据 服务 平台 两 个 部 分 ,其 中 ,业务 应 用 主要 是 根据 各 个 行业 不 同 的 数据 需 
求 进行 相应 的 处 理 , 形 成 符合 业务 需求 的 应 用 ; 而 数据 服务 平台 则 是 通过 平台 向 数据 需求 
者 提供 相应 的 数据 服务 。 数 据 消费 者 的 角色 定义 和 相关 任务 见 图 3-7。 


Data Consumer actors: 





图 3-7 数据 消费 者 角色 定义 


另外 ,数据 提供 者 和 数据 消费 者 在 不 同 角度 下 可 以 相互 转换 ,数据 消费 者 在 处 理 使 用 数 
据 之 后 ,会 形成 新 的 数据 并 提供 出 来 。 而 数据 提供 者 在 收集 整理 相关 数据 的 时 候 , 也 会 变 成 
数据 消费 者 。 

6. 管理 角色 (Management Fabric) 

大 数据 的 AV 特点 (Volume，Velocity，Variaty and Value) 需 要 一 个 多 功能 的 数据 存 
储 、 处 理 及 管理 平台 ,以 应 对 系统 或 数据 相关 的 管理 需求 。 具 体 而 言 ,管理 角色 的 任务 分 为 
系统 管理 和 数据 生命 周期 管理 两 类 ,具体 包括 监控 配置. 封装、 软件 管 理 、 备 份 .性 能 、 数 据 
质量 ,资源 管理 等 。 数 据 质 量 贯 穿 整个 数据 生命 周期 ,涉及 采集 存储、 传输 分析、 展现 等 各 
方面 。 数 据 质量 关键 因素 包括 数据 一 致 性 ,数据 完整 性 .数据 准确 性 `. 数 据 新 鲜 度 .数据 约束 
性 等 。 管 理 角 色 定 义 和 相 关 任 务 见 图 3-8。 


Management Fabric actors: 





Provisioning 
Configuration 

Package Management 
Software Management 
Backup Management 
Capability Management 
Resources Management 





— 





Data Management 
Performance Management 


图 3-8 管理 角色 定义 


7. 安全 及 隐私 管理 角色 (Security and Privacy Fabric) 

安全 及 隐私 管理 涉及 大 数据 参考 架构 的 各 个 方面 ,在 系统 领导 者 制定 策略 .定义 需求 、 
审查 过 程 中 都 需要 考虑 安全 和 隐私 需要 ,大 数据 应 用 提供 者 和 基础 框架 提供 者 在 开发 部署 
和 运营 过 程 中 也 必须 考虑 这 一 问题 。 安 全 及 隐私 管理 角色 定义 和 相关 任务 见 图 3-9。 
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Security and Privacy Fabric actors: 


Security Officer 
iolist Activiti 
» Security and Privacy Policy Requirements. 
» Security and Privacy Monitoring 


图 3-9 安全 及 隐私 管理 角色 定义 


大 数据 领域 的 标准 化 工作 是 支撑 大 数据 产业 发 展 和 应 用 的 重要 基础 ,为 了 推动 和 规范 
我 国 大 数据 产业 的 快速 发 展 ,建立 大 数据 的 产业 链 , 与 国际 标准 接轨 ,在 工信部 和 国家 标准 
委 领 导 下 ,2014 年 12 月 成 立 了 全 国信 息 技术 标准 化 技术 委员 会 大 数据 标准 工作 组 ,主要 负 
责 制 定 和 完善 我 国 大 数据 领域 标准 体系 ,组 织 开展 大 数据 相关 技术 和 标准 的 研究 ,申报 国家 
或 行业 标准 ,承担 国家 或 行业 标准 制 修订 计划 任务 ,宣传 推广 标准 实施 ,组 织 推动 国际 标准 
化 活动 ,对 口 ISO/IEC JTC 1/WG9 大 数据 工作 组 ,还 重点 关注 NIST NBD-PWG 大 数据 公 
共 工 作 组 标准 制定 情况 ,同时 对 ITU 的 动态 进行 研究 跟踪 。 

为 了 更 好 地 开展 相关 标准 化 工作 ,2015 年 7 月 ,大 数据 标准 工作 组 成 立 7 个 专题 组 : 总 
体 专题 组 、 国 际 专题 组 .技术 专题 组 .产品 和 平台 专题 组 .安全 专题 组 .工业 大 数据 专题 组 . 电 
子 商 务 大 数据 专题 组 ,负责 大 数据 领域 不 同方 向 的 标准 化 工作 。2016 年 ,工作 组 正在 研制 
的 国家 标准 有 10 项 ,其 中 ,信息 技术 大 数据 术语 》 国 家 标准 进入 报批 阶段 《信息 技术 数据 
交易 服务 平台 交易 数据 描述 兴 信息 技术 数据 渊源 描述 模型 ?等 4 项 国家 标准 进入 征求 意见 
阶段 《信息 技术 大 数据 参考 架构 等 5 项 标准 已 经 完成 草案 。 另 外 ,全 国信 息 技术 标准 化 技 
术 委 员 会 (TC28) 还 在 元 数据 数据库、 数据 建 模 、 数 据 交 换 与 管理 等 大 数据 相关 领域 推动 技 
术 标 准 的 研究 应 用 ,为 提升 跨行 业 领 域 的 数据 管理 能 力 提 供 标准 化 支持 。 与 大 数据 关系 比 
较 密切 的 标准 化 工作 小 组 包括 : 信 标 委 非 结构 化 数据 管理 标准 工作 组 、 信 标 委 云 计算 工作 
组 、 信 标 委 SOA 分 技术 委员 会 、 信 标 委 传感器 网 络 工作 组 等 。2012 年 ,全 国信 标 委 成 立 了 
非 结 构 化 数据 管理 标准 工作 组 ,对 口 ISO/IEC JTC1 SC32 WG4, 致 力 于 非 结 构 化 数据 管理 
体系 结构 .数据 模型 .查询 语言 ,数据 挖掘 \ 信 息 集成 ,信息 提取 应 用 模式 等 相关 国家 标准 和 
行业 标准 的 研究 。 目 前 正在 开展 ( 非 结构 化 数据 表示 规范 X 非 结构 化 数据 访问 接口 规范 》、 
《 非 结构 化 数据 管理 系统 技术 要 求 ) 等 国家 标准 的 研制 。 

2016 年 ,大 数据 标准 工作 组 与 中 国电 子 技术 标准 化 研究 院 发 布 了 《大 数据 标准 化 白 皮 
书 (2016 MOEH ,对 大 数据 技术 参考 架构 进行 了 描述 。 白 皮 书 采用 了 NIST 工作 组 的 大 数 
据 技术 参考 模型 ,并 基于 这 一 模型 确定 了 大 数据 计算 的 核心 技术 ,包括 数据 采集 .数据 预 处 
理 . 数 据 存储 数据 计算 .数据 分 析 ` 数 据 可 视 化 等 ,从 基础 、 技 术 .产品 ,应 用 等 不 同方 面 , 初 
步 形成 了 大 数据 标准 体系 框架 (图 3-10)。 在 这 一 体系 中 ,大 数据 标准 体系 由 7 个 类 别 的 标 
准 组 成 ,分 别 为 基础 标准 、 数 据 标准 、 技 术 标 准 、 平 台 和 工具 标准 管理 标准 、 安 全 和 隐私 标 
准 , 行 业 应 用 标准 。 其 具体 含义 如 下 。 

1. 基础 标准 

为 整个 标准 体系 提供 总 则 ,术语 和 参考 模型 等 基础 性 标准 。 

2. 数据 处 理 标准 


数据 处 理 标准 包含 数据 整理 数据 分 析 和 数据 访问 三 种 类 型 的 标准 。 数 据 整理 标准 主 
要 是 针对 数据 在 采集 汇聚 后 的 初步 处 理 方式 和 方法 的 标准 ,包括 数据 表示 ,数据 注册 和 数据 
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图 3-10 大 数据 标准 体系 


清理 三 类 标准 。 数 据 分 析 标准 主要 针对 大 数据 环境 下 数据 分 析 的 性 能 、 功 能 等 要 求 进行 规 
范 。 数 据 访问 标准 则 是 提供 标准 化 的 接口 和 共享 方式 ,使 数据 能 够 被 广泛 应 用 。 

3. 数据 安全 标准 

数据 安全 作为 数据 标准 的 支撑 体系 ,贯穿 于 数据 整个 生命 周期 的 各 个 阶段 。 不 同 于 传统 
的 网 络 安全 和 系统 安全 ,大 数据 时 代 下 的 数据 安全 标准 主要 包括 通用 要 求 隐私 保护 两 类 标准 。 

4. 数据 质量 标准 

该 类 标准 主要 针对 数据 质量 提出 具体 的 管理 要 求 和 相应 的 指标 要 求 ,确保 数据 在 产生 、 
存储 交换 和 使 用 等 各 个 环节 中 的 质量 ,为 大 数据 应 用 打下 良好 的 基础 ,并 对 数据 全 生命 周 
期 进行 规范 化 管理 。 主 要 包括 元 数据 质量 ` 质 量 评价 和 数据 溯源 三 类 标准 。 

5. 产品 和 平台 标准 

该 类 标准 主要 针对 大 数据 相关 技术 产品 和 应 用 平台 进行 规范 ,包括 关系 型 数据 库 产品 、 
非 结构 化 数据 管理 产品 、 商 务 智能 工具 、 可 视 化 工具 、 数 据 处 理 平台 和 测试 规范 6 类 标准 。 
其 中 ,关系 型 数据 库 产品 标准 针对 存储 和 处 理 大 数据 的 关系 型 数据 库 管理 系统 ,从 访问 接 
口 .技术 要 求 ,测试 要 求 等 方面 进行 规范 ,为 关系 型 数据 库 管 理 系统 进 行 大 数据 的 高 端 事务 
处 理 和 海量 数据 分 析 提 供 支持 ; 非 结构 化 数据 管理 产品 标准 针对 存储 和 处 理 大 数据 的 非 结 
构 化 数据 管理 系统 ,从 参考 架构 数据 表示 ,访问 接口 ,技术 要 求 ,测试 要 求 等 方面 进行 规范 ; 
商务 智能 工具 用 来 帮助 用 户 对 大 数据 进行 分 析 决 策 , 包 括 ETL OLAP .数据 挖 气 等 工具 , 商 
务 智能 工具 标准 对 商务 智能 工具 的 技术 及 功能 进行 规范 ; 可 视 化 工具 是 对 大 数据 处 理应 用 
过 程 中 所 需 用 到 的 可 视 化 展现 工具 的 技术 和 功能 要 求 进行 规范 ; 数据 处 理 平台 标准 是 针对 
大 数据 处 理 平台 从 技术 架构 、 建 设 方案 ,平台 接口 等 方面 进行 规范 ; 测试 规范 针对 处 理 大 数 
据 的 产品 和 平台 给 出 测试 方法 和 要 求 。 

6. 应 用 和 服务 标准 

应 用 和 服务 类 标准 主要 是 针对 大 数据 所 能 提供 的 应 用 和 服务 从 技术 、 功 能 、 开 发、 维护 
和 管理 等 方面 进行 规范 。 主 要 包括 开放 数据 集 ` 数 据 服务 平台 和 和 领域 应 用 数据 三 类 标准 。 
其 中 ,开放 数据 集 标准 主要 对 向 第 三 方 提供 的 开放 数据 包 中 的 内 容 、 格 式 等 进行 规范 ; 数据 
服务 平台 标准 是 针对 大 数据 服务 平台 的 功能 性 、 维 护 性 和 管理 性 所 提出 的 标准 ; 领域 应 用 
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数据 指 的 是 各 领域 根据 其 领域 特性 所 产生 的 专用 数据 标准 。 
到 2016 年 为 止 我 国 已 初步 发 布 了 一 批 大 数据 标准 ,另外 有 多 项 国家 标准 在 报批 \ 立 项 
或 研究 过 程 中 中, 见 表 3-1。 


表 3-1 大 数据 国家 标准 列表 










































































国家 标准 编号 
lis i 
1 信息 技术 大 数据 标准 化 指南 
2 E 信息 技术 大 数据 术语 
本 信息 技术 大 数据 参考 模型 已 申报 
GB/T = R idt ISO/IEC 1495 
H] 18142-2000 | 信息 技术 数据 元 素 值 格式 记 法 |7，1996 已 发 布 
5 GB/T 人 ISO/IEC1117 已 发 布 
pasal 18391. 1—2009 | 第 1 部 分 9-1: 2004,IDT 
6 GB/T e ISO/IEC1117 pad 
Bu 18391.2—2009 | 第 2 部 分 : 分 类 9-2: 2005,IDT 
信息 技术 元 数据 注册 系统 CMDR) 
GB/T d ISO/IEC1117 
y 18391. 3—2009 FE 注册 系统 元 模型 与 基本 | 9-3, 2003,IDT | 已 发 布 
E GB/T 信息 技术 元 数据 注册 系统 (MDR) | ISO/IECHIT | uas 
| 18391. 4 一 2009 | 第 4 部 分 : 数据 定义 的 形成 9-4; 2004,IDT 
GB/T 信息 技术 元 数据 注册 系统 (MDR) | ISO/IEC1117 me 
VE 18391.5—2009 | 第 5 部 分 : 命名 和 标识 原则 9-5; 2005,IDT 
10 GB/T 信息 技术 元 数据 注册 系统 (MDR) | ISO/IEC1117 已 发 布 
Bad 18391.6—2009 | 第 6 部 分 : 注册 9-6: 2005.IDT 
GB/T 
m 21025—200 | XML 使 用 指南 已 发 布 
12 GB/T 信息 技术 实现 元 数据 注册 系统 内 | ISO/IEC TR20943- 已 发 布 
bel 数据 23824. 1—2009 容 一 致 性 的 规程 第 1 部 分 : 数据 元 |1: 2003,IDT 
eal T 信息 技术 实现 元 数据 注册 系统 内 | ISO/IEC TR20943-| a 
| 数据 23824. 3 一 2009 | 容 一 致 性 的 规程 第 3 部 分 : 值 域 | 3: 2004,IDT 
T 信息 技术 元 模型 互 操作 性 框架 第 1 
ES 处 理 20051294-T-339 | 部 分 。 参考 模型 已 报批 
rano | 信息 技术 元 模型 互 操作 性 框架 第 2 
15| 20051295-T-339 | 部 分 ,核心 模型 已 报批 
rt 信息 技术 元 模型 互 操作 性 框架 第 3 
ae 20051296-T-339 | 部 分 。 本 体 注册 的 元 模型 已 报批 
信息 技术 元 模型 互 操作 性 框架 第 4 
am 20051297-T-339 | 部分， 模型 映射 的 元 模型 已 报批 
m 20080046-T-469 | 信息 技术 元 数据 模块 (MM) 第 1 部 [ISO/IEC19773- eg 
19 20080044-T-469 L- P usns AN 已 报批 
| 信息 技术 通用 逻辑 基于 逻辑 的 语 | ISO/IEC24706: 
20| 20080045-T-469 系 的 框架 20e 已 报批 
21 20080485-T-469 MU ENNIUS 已 报批 
22 让 人 生生 全 全 已 申报 
信息 技术 大 数据 分 析 总 体 技术 
PES 数据 ER zER 
p 分 析 NREC RNUNUHAUE "m 
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ARREARS 
a GB/T 信息 技术 数据 库 语 言 SQL 第 1 部 | ISO/IEC9075-1: 已 发 布 
dl| 12991 一 2008 | 4: 框架 2003,IDT 
信息 技术 云 数 据 存储 和 管理 第 1 
| 20120567-T-469 部 分 : 总 则 在 研制 
naso | 信息 技术 云 数 据 存储 和 管理 第 2 
27 | 数据 | 数据 | 20120989 7469 | 部分, 基于 对 象 的 云 存 储 应 用 接口 b. 
| Aem dp 信息 技术 云 数据 存储 和 管理 第 5 
28 20120569-T-469 | 部 分 : 基于 Key-Value 的 云 数据 管 在 研制 
ES 理应 用 接口 
Ew 信息 技术 通用 数据 导入 接口 规范 已 申报 
m 信息 技术 通用 数据 导入 接口 测试 TEE 
GB/T 信息 安全 技术 数据 库 管 理 系 统 安 
un 20009—2005 | 全 评估 准则 Ex 
GB/T 信息 安全 技术 数据 库 管理 系统 安 
il 20273—2006 | 全 技术 要 求 can 
GB/T 信息 技术 安全 技术 信息 安全 管理 
EE 22080—2008 | 体系 要 求 BA 
GB/T 信息 技术 安全 技术 信息 安全 管理 
iai 22081—2008 | 实用 规则 uiid 
信息 技术 安全 技术 信息 安全 管理 
a m 20100383-T-469 体系 实施 指南 已 发 布 
信息 安全 技术 数据 库 管 理 系 统 安 
id ws 全 技术 要 求 EER) 
信息 安全 技术 信息 技术 产品 在 线 
Ex 服务 信息 安全 规范 Bonn 
数据 信息 安全 技术 云 计算 服务 安全 能 
33| 安全 APER ze 
39| 信息 安全 技术 大 数据 安全 指南 拟 研 制 
40 人 拟 研制 
Fral 信息 安全 技术 大 数据 安全 生命 周 
41 期 安全 要 求 拟 研 制 
42 GB/Z 信息 安全 技术 公共 及 商用 服务 信 ead 
ARM 28828—2012 | 息 系统 个 人 信息 保护 指南 
43 20130323-T-469 Hicks dea dis 在 研制 
Eu 隐私 
44 信息 安全 技术 移动 智能 终端 个 人 
KS 保护 | 20130338-T-469 信息 保护 技术 要 求 在 研制 
EE 信息 安全 技术 个 人 信息 保护 指南 已 立项 
信息 安全 技术 大 数据 中 的 隐私 保 
46 护 规范 拟 研制 
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uH 国家 标准 编号 
"Y, 
4| 元 | 20103324T-S] | 信息 技术 元 数据 质量 要 求 框架 在 研制 
48 z: 2010-3325T-SJ | 信息 技术 元 数据 质量 指标 在 研制 
软件 工程 软件 产品 质量 要 求 和 评 
EA" 价 (SQuaRE) 数 据 质量 模型 PUT 
50 | 评价 数据 能 力 成 熟 度 模型 规范 已 申报 
51 信息 技术 数据 质量 评价 指标 拟 研制 
52| 数据 信息 技术 数据 引用 规范 拟 研制 
53 溯源 信息 技术 数据 溯源 描述 模型 拟 研制 
关系 GB/T 
54 Sw azae 关系 数据 管理 系统 技术 要 求 已 发 布 
55] 据 库 | 20080484-T-469 | 关系 数据 库 管理 系统 检测 规范 已 报批 
56 产品 | 20100401-T-469 | 分 布 式 关系 数据 库 服务 接口 规范 在 研制 
57 | 20121409-T-469 | 非 结 构 化 数据 表示 规范 在 研制 
58 | 非 结 | 20121410-T-469 非 结构 化 数据 访问 接口 规范 在 研制 
(89. 构 化 | 20121411-T-469 | 非 结构 化 数据 管理 系统 技术 要 求 在 研制 
(60 数据 实时 数据 库 通用 接口 规范 已 申报 
«| ^5 | 管理 非 结构 化 数据 管理 系统 参考 模型 已 申报 
ea 非 结构 化 数据 管理 术语 拟 研制 
63 非 结 构 化 数据 查询 语言 拟 研制 
可 视 
64 化 大 数据 可 视 化 工具 通用 要 求 拟 研制 
工具 
- ux n AN 拟 研制 
—| 处 理 
大 数据 平台 通用 软件 开发 工具 包 
ES s (CSDK) 规 范 - 
67| 开放 开放 数据 集 基本 要 求 拟 研制 
68 yis 开放 数据 集 标识 管理 拟 研制 
GB/T 信息 技术 面向 服务 的 体系 结构 
69 29262—2012 (SOA) 术 语 Ex 
m m GB/T | 信息 技术 面向 服务 的 体系 结构 x 
服务 | 数据 29263—2012 | (SOA) 应 用 的 总 体 技术 要 求 
服务 信息 技术 数据 交易 服务 平台 通用 
al 台 功能 要 求 Es 
m EELER 交易 数据 
述 
E| 数据 服务 平台 管理 操作 规程 拟 研制 
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尽管 我 国 在 大 数据 标准 体系 的 构建 方面 已 跟 上 国际 步伐 ,在 某 些 标准 领域 已 成 为 国际 
标准 的 承担 者 、 合 作者 ,但 我 国 的 大 数据 标准 的 研究 制定 仍 在 一 个 发 展 过 程 中 ,需要 政府 、 工 
业界 和 科技 界 的 共同 努力 。 政 府 层面 需要 系统 地 开展 大 数据 相关 方 权利 和 义务 、 大 数据 
各 个 业务 环节 基本 操作 规程 数据 内 容 保 护 、 个 人 隐私 保护 等 方面 政策 法 规 的 研究 ,保障 
大 数据 内 容 安全 可 控 , 产 业 和 应 用 能 够 规范 发 展 。 在 技术 标准 制定 方面 《大 数据 标准 化 
白皮书 (2016 版 ) ;5 指出 尚 需 推动 如 下 工作 。 

CD 在 数据 资源 方面 ,我 国 已 经 研制 的 一 些 相 关 标准 ,同样 适用 于 大 数据 环境 ,目前 急 
需 加 强 这 类 标准 的 推广 应 用 。 

(2) 在 交换 共享 方面 ,加 快 数据 开放 共享 是 国家 重要 任务 ,然而 尚 缺乏 数据 开放 共享 方 
面 标准 ,尤其 是 适用 于 政府 数据 开放 共享 相关 的 标准 。 虽 然 在 研 两 项 交易 类 的 国家 标准 ,但 
是 尚 缺 乏 交 易 流程 .交易 数据 管理 等 方面 的 标准 。 

(3) 从 技术 标准 来 看 ,在 数据 访问 方面 ,目前 发 布 和 在 研 数据 导入 和 数据 库 相 关 标 准 适 
用 于 大 数据 底层 数据 接口 ,但 是 尚 缺 乏 分 析 、 可 视 化 类 标准 : 数据 质量 是 大 数据 应 用 和 发 展 
的 基础 ,目前 有 多 项 在 研 标准 ,但 是 均 尚未 发 布 , 较 为 缺乏 。 大 数据 安全 方面 ,部 分 现 有 标准 
适用 ,但 是 尚 缺 乏 针对 大 数据 的 安全 框架 .隐私 .访问 控制 类 标准 。 

(4) 针对 大 数据 平台 和 工具 ,目前 发 布 和 在 研 多 项 数据 库 、 非 结构 化 数据 管理 产品 类 标 
准 , 但 缺乏 大 数据 系统 级 相关 产品 的 标准 ; 在 大 数据 环境 下 ,数据 也 已 成 为 产品 ,而 针对 系 
统 级 和 工具 级 产品 等 新 兴 产 品 , 尚 缺乏 相应 的 标准 。 

综 上 所 述 ,针对 大 数据 我 国 在 数据 管理 ,信息 安全 等 方面 已 经 发 布 和 在 研一 些 标准 , 具 
备 了 一 定 的 基础 ,但 是 缺乏 标准 化 整体 规划 、 数 据 开放 共享 、 数 据 交 易 ,数据 安全 、 系 统 级 产 
品 等 方面 的 标准 ,以 及 管理 和 评估 类 的 标准 , 急 待 研制 。 


3.2 大 数据 计算 模式 


第 2 章 论述 了 目前 大 数据 计算 架构 中 采用 的 存储 体系 .计算 模型 及 计算 平台 等 关键 技 
术 。 存 储 体系 主要 包括 基于 关联 模型 的 关系 型 数据 库 RDBS 和 基于 分 布 式 文件 系统 的 
NoSQL 数据 库 两 大 类 ; 计算 模型 包括 MapReduce 批 处 理 模 型 Pregel/ Hama/GraphLab 
图 计算 模型 流 计算 模型 以 及 以 HANA 为 代表 的 大 内 存 计 算 模 型 ， 有 代表 性 的 计算 平台 包 
括 开 源 社区 的 Hadoop, Spark, Storm 等 ,商业 平台 包括 Google 的 系列 产品 .Cloudera 的 
CDH IBM 的 InfoSphere、 微 软 的 Azure HDInsight 德国 SAP 的 HANA 等 。 

这 种 “存储 架构 十 计算 模型 十 支撑 平台 ”的 特定 组 合 构成 某 一 类 大 数据 应 用 的 技术 解决 
方案 ,我 们 也 可 称 之 为 计算 模式 。 目 前 ,大 数据 处 理 主要 采用 的 计算 模式 有 批 处 理 模式 、 图 
计算 模式 、 交 互 式 计 算 模式 、 流 计算 模式 内存 计 算 模式 ,以 及 大 规模 并 行 处 理 模式 
(Massively Parallel Processing. MPP)。 但 应 该 注意 ,一 些 大 数据 计算 平台 或 产品 可 以 支持 
多 个 计算 模式 , 比如 加 州 大 学 伯克利 分 校 AMP Lab 提供 的 Spark F APA 就 既 支持 
MapReduce 批 处 理 模式 也 支持 内 存 计算 模式 。 

K 3-2 列 出 了 上 述 大 数据 计算 模式 所 采用 的 各 项 关键 技术 。 

计算 系统 单位 时 间 完 成 的 处 理 数据 量 即 吞吐 量 和 处 理 时 延 是 衡量 一 个 计算 系统 性 能 的 
两 个 主要 指标 。 从 前 述 分 析 对 比 可 看 出 ,MapReduce 批 处 理 模 式 与 内 存 计算 模式 采用 了 两 
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种 截然 不 同 的 技术 思路 : MapReduce 模式 基于 现 有 廉价 商业 硬件 和 成 熟 技术 ,成 本 低 , 可 处 
理 超大 规模 数据 集 ,吞吐 量 大 ,但 计算 耗 时 长 ,无 法 支持 在 线 快速 智能 分 析 这 类 运用 ; 内 存 
计算 模式 将 DRAM 内 存 集群 作为 主 存储 介质 ,构成 大 规模 集中 式 内 存 结构 (如 内 存 云 
MemCloud) ,计算 数据 一 次 装载 和 内存, 因此 计算 速度 快 ,非常 适宜 于 低 时 延 要 求 的 实时 在 
线 分 析 。 但 大 内 存 模式 成 本 高 (目前 硬盘 存储 成 本 约 为 0. 6 美 分 /GB, 而 MemCloud 的 成 本 
高 达 60 美元 /GB) ,大 内 存 存储 的 持久 性 和 可 靠 性 尚未 得 到 验证 。 另 外 ,在 跨 数据 中 心 应 用 
中 内 存 云 也 受到 外 部 网 络 速度 迟缓 的 限制 ,因此 ,大 内 存 计算 模式 在 近期 内 尚未 成 为 业界 的 
主流 解决 方案 。 


表 3-2 大 数据 计算 模式 








计算 模式 代表 产品 存储 体系 计算 模型 计算 平台 
GFS， Hadoop, 
HDFS, Hive, ZooKeeper, 
批 处 理 MapReduce | HDFS. MapReduce Azure, x 
Mahout, Pig, Yarn 
NoSQL InfoSphere 
Pregel, GFS， | 


Google， Superstep ,图 分 割 ,数据 








图 计算 Hama, HDFS, | BSP 
GraphLab |NoSQL ERR, mi 
Dremel, GFS, 
交互 式 计算 | Drill, HDFS， | 列 存储 结构 ` 内 存 驻 存 ， 
E Hadop Hash X 
PowerDrill | NoSQL | | 
` 5 有 向 非 循环 图 (DAG)， 
流 计算 Storm, S4 | GFS. HDFS 流 计 算 模型 Storm，S4 Tuple/Bolt/Topology 
A Spark. » Spark. 列 存储 格式 、 读 写 分 离 、 
We HANA 集中 式 存储 EnA HANA 内 存 数据 库 。 
NUMA Shared Nothing 架构 ， 
MPP Greenplum | 多 点 存储 SQL ( 非 一 致 存储 访问 ) Greemplum 数据 分 区 与 并 发 计算 




















图 计算 模式 也 侧重 于 数据 吞吐 量 , 因 此 更 接近 于 批 处 理 模 式 ,只 是 其 采用 的 BSP 同步 
计算 模型 不 同 于 MapReduce 模型 。 但 两 者 都 具有 处 理 数 据 量 大 、 计 算 时 延长 ,不 支持 在 线 
实时 处 理 的 特点 。 

流 计算 模式 强调 对 数据 的 实时 计算 处 理 ,看 重 实时 数据 查询 的 快速 响应 ,从 这 一 点 上 
看 , 流 计算 模式 偏向 于 内 存 计算 模式 ,属于 强调 计算 时 延 而 非 数据 吞吐 量 的 一 类 计算 模式 。 
但 流 数据 针对 的 是 动态 数据 流 的 实时 处 理 , 其 一 个 计算 任务 (或 一 次 循环 ) 处 理 的 数据 量 并 
不 大 ,这 与 内 存 计 算 不 同 。 后 者 需要 把 大 数据 量 的 静态 数据 一 次 装载 人 内 存 完成 一 次 计算 ， 
需要 更 大 的 物理 内 存 空 间 。 

MapReduce 批 处 理 计 算 模式 被 证 明 是 一 种 数据 量 大 ,高 性 价 比 、 技 术 成 熟 的 解决 方案 ， 
但 计算 时 延长 (通常 在 小 时 到 天 的 量 级 ) ,不 利于 在 线 实 时 响应 ; 大 内 存 计算 模式 处 理 速度 
快 (通常 在 秒 到 毫秒 量 级 ) ,利于 实时 智能 分 析 , 但 系统 成 本 高 ,与 周边 系统 同步 兼容 性 差 。 
如 果 把 MapReduce 批 处 理 模式 和 大 内 存 模式 看 成 同一 条 轴 上 的 两 个 极端 ,那么 在 这 两 端 之 
间 是 否 可 以 找到 一 个 折 中 方案 ? 

2012 年 以 来 ,Google 提出 一 种 新 计算 技术 引起 了 业界 注意 并 得 到 快速 发 展 。 这 种 被 称 
为 交互 式 分 析 (Interactive Analysis) 的 计算 模式 3 采用 现 有 的 分 布 式 系统 架构 (Google 的 
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GFS/BigTable, 开 源 社 区 的 Hadoop/ HDFS/Hive) ,通过 改造 数据 存储 结构 和 算法 创新 (如 
列 存储 结构 ,数据 本 地 化 ,提高 内 存 驻 存 率 等 ) 来 大 大 降低 计算 耗 时 ,将 数据 处 理 时 间 从 
MapReduce 的 小 时 到 天 的 量 级 降低 到 秒 到 分 钟 级 。 这 虽然 比 还 不 上 大 内 存 模式 的 处 理 速 
度 ,但 已 为 大 数据 实时 计算 提供 了 一 种 可 行 的 高 性 价 比 折 中 方案 。 这 种 被 称 为 交互 式 计 算 
模式 的 重要 意义 在 于 : 它 不 仅 避免 了 物理 大 内 存 技术 的 高 昂 成 本 ,而 且 在 计算 架构 和 网 络 
接口 方面 与 现 有 体系 能 更 好 地 集成 ,可 靠 性 也 更 好 。 在 目前 高 成 本 的 物理 存储 介质 未 有 实 
质 性 突破 的 情况 下 ,交互 式 计 算 模式 在 支持 在 线 实 时 数据 计算 处 理 方面 不 失 为 一 个 可 选择 
的 解决 方案 ,对 于 互联 网 在 线 智能 商务 分 析 、 电 信和 网 络 和 物流 系统 监测 、 政 府 突 发 应 急 管理 
这 一 类 应 用 具有 实际 意义 。 

在 批 处 理 模式 ,交互 式 计算 模式 、 大 内 存 模式 之 外 ,另外 值得 讨论 的 一 种 计算 模式 是 大 
规模 并 行 处 理 模式 (Massively Parallel Processing; MPP)U9 。 大 规模 并 行 处 理 系统 由 多 个 
松 耦 合 的 处 理 单元 组 成 (要 注意 这 里 指 的 是 处 理 单 元 而 不 是 处 理 器 ) ,每 个 单元 内 的 CPU 
都 有 自己 的 本 地 资源 ,如 总 线 \ 内 存 、 硬 盘 等 。 在 每 个 单元 内 都 有 操作 系统 和 数据 库 系统 ,这 
种 结构 最 大 的 特点 在 于 不 共享 资源 。MPP 作为 一 种 不 共享 资源 的 海量 数据 实时 分 析 架 构 ， 
其 每 个 处 理 节 点 运行 自己 的 操作 系统 文件 系统 和 数据 库 等 ,节点 之 间 信 息 交 互 只 能 通过 网 
络 连接 实现 。MPP 具有 如 下 特征 。 

(1) 任务 执行 并 行 化 ; 

(2) 数据 分 布 式 存储 (本 地 化 ); 

(3) 分 布 式 计算 架构 ， 

(4) 计算 节点 私有 资源 ; 

(5) 横向 扩展 性 好 (易于 加 入 新 的 处 理 节点 ); 

(6) Shared Nothing 架构 。 

支持 这 种 大 规模 并 行 处 理 的 MPP 数据 库 是 一 种 新 型 数据 库 类 型 , 它 采 用 Shared 
Nothing 十 MPP 架构 ,通过 列 存储 、 高 效 压缩 、 粗 粒度 智能 索引 等 多 项 大 数据 处 理 技术 ,结合 
MPP 架构 高 效 的 分 布 式 计算 模式 ,完成 对 海量 高 密度 结构 化 数据 的 分 析 类 应 用 的 支撑 。 这 
种 MPP 数据 库 被 证 明 可 以 有 效 支撑 PB 级 别 的 结构 化 数据 的 高 效 处 理 55 , 它 具 有 如 下 

CD 具备 ACID 特性 : 满足 原子 性 .一致 性 等 要 求 。 

(2) 支持 关系 型 模型 ,支持 基于 关系 模型 的 数据 库 设 计 。 

(3) 使 用 SQL 标准 接口 (支持 ODBC 和 JDBC) ,易于 开发 ,应 用 迁移 方便 。 

(4) Share Nothing 架构 的 特点 使 其 可 以 横向 扩展 数 百 个 节点 ,支撑 PB 级 别 的 数据 处 理 。 

(5) 特别 擅长 处 理 结构 化 数据 ,有 明显 的 星 状 和 雪花 片 模型 结构 ,便于 进行 OLAP 分 析 
和 多 维 分 析 。 

(6) 可 部 署 于 开放 架构 的 X86 服务 器 ,平台 建设 成 本 低 。 

MPP 计算 架构 擅长 处 理 高 价值 密度 的 结构 化 数据 的 特点 特别 适合 大 规模 的 海量 数据 
查询 .关联 分 析 等 场景 ,例如 ,数据 仓库 数据 集 市 ,企业 级 报表 统计 分 析 、 即 席 查询 、 多 维 
分 析 等 , 且 MPP 运行 环境 多 为 低 成 本 PC Server, 具 有 高 性 能 和 高 扩展 性 的 特点 。 目 前 , 采 
用 MPP 架构 的 实时 查询 系统 有 EMC Greenplum、HP Vertica 和 Google Dremel, 这 些 都 是 
实时 数据 处 理 领域 得 到 成 功 运 用 的 系统 ,尤其 是 Dremel 可 以 轻松 扩展 到 上 千 台 服务 器 ,并 
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在 数秒 内 完成 TB 级 数据 的 分 析 。 

Greenplum 是 一 种 基于 PostgreSQL 的 分 布 式 数据 库 。 其 采用 MPP 架构 ,各 处 理 节 点 
的 主机 ,操作 系统 、 内 存 、 存 储 都 是 自 有 和 自我 控制 ,不 与 其 他 节点 共享 ,也 即 每 个 节点 都 是 
一 个 单独 的 数据 库 。 节 点 之 间 的 信息 交互 是 基于 网 络 通 过 信息 传递 来 实现 ,其 计算 模式 是 
将 数据 划分 分 布 到 多 个 节点 上 来 实现 规模 数据 的 存储 和 计算 ,通过 并 行 查询 处 理 来 提高 系 
统 的 查询 性 能 。Greenplum 的 系统 架构 如 图 3-11 所 示 。 


SQL 


Interconnect 





图 3-11 Greenplum 的 系统 架构 


Greenplum 数据 库 的 核心 组 件 如 下 。 

(1) 解析 器 : 主 节点 收 到 客户 端 请 求 后 ,执行 认证 操作 。 认 证 成 功 建立 连接 后 ,客户 端 
可 以 发 送 查 询 给 数据 库 。 解 析 器 负责 对 收 到 的 查询 SQL 字符 串 进行 词法 解析 ,语法 解析 ， 
并 生成 语法 树 。 

(2) 优化 器 : 优化 器 对 解析 器 的 结果 进行 处 理 ,从 所 有 可 能 的 查询 计划 中 选择 一 个 最 
优 或 者 接近 最 优 的 计划 ,生成 查询 计划 。 查 询 计划 描述 了 如 何 执 行 一 个 查询 ,通常 以 树 状 结 
构 描 述 。Greenplum 最 新 的 优化 器 叫 ORCAD9 。 

(3) 调度 器 (QD) : 调度 器 发 送 优化 后 的 查询 计划 给 所 有 数据 节点 (Segment Host) 上 
的 执行 器 (QE)。 调 度 器 负责 任务 的 执行 ,包括 执行 器 的 创建 销毁、 错误 处 理 、 任 务 取消 、 状 
态 更 新 等 。 

(4) 执行 器 (QE): 执行 器 收 到 调度 器 发 送 的 查询 计划 后 ,开始 执行 自己 负责 的 那 部 分 
计划 。 典 型 的 操作 包括 数据 扫描 、 哈 希 关 联 、 排 序 、 聚 集 等 。 

(5) Interconnect 连接 网 络 : 负责 集群 中 各 个 节点 间 的 数据 传输 。 

(6) 系统 表 : 系统 表 存储 和 管理 数据 库 、. 表 、 字 段 的 元 数据 。 每 个 节点 上 都 有 相应 的 
拷贝 。 

CD 分 布 式 事务 管理 器 : 部 署 在 主 节 点 上 ,负责 协调 数据 节点 事务 的 提交 和 回 滚 操作 ， 
由 两 阶段 提交 (2PC) 实 现 。 每 个 数据 节点 都 有 自己 的 事务 日 志 , 负 责 自 己 节点 上 的 事务 
处 理 。 

从 上 面 的 分 析 可 看 出 ,MPP 计算 模式 擅长 处 理 高 价值 密度 的 结构 化 数据 ,而 基于 
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Hadoop 平台 的 批 处 理 模 式 的 优势 在 于 处 理 非 结 构 化 数据 。Greenplum 基于 MPP 架构 的 
数据 库 (GPDB) 将 数据 进行 Hash 切 分 存储 到 多 个 处 理 节点 ,一 个 SQL 查询 请 求 会 被 分 发 
到 多 个 处 理 节点 同时 并 行 处 理 , 这 就 大 大 提高 了 查询 速度 。 但 GPDB 的 数据 Hash 存储 方 
式 也 使 得 它 的 系统 可 扩展 性 不 如 Hadoop/HDFS(GPDB 加 入 一 个 新 的 处 理 节 点 后 需要 重 
新 映射 rehash) 。 目 前 的 一 个 趋势 是 在 Hadoop 的 底层 数据 存储 系统 之 上 增加 相似 于 MPP 
架构 的 计算 引擎 ,以 改善 Haddop/MapReduce 计算 时 延长 的 缺点 。Google 的 Dremel” 、 
开源 社区 的 Impala? 7 都 是 这 样 的 技术 。 

综 上 所 述 ,目前 大 数据 的 解决 方案 按照 计算 模型 .计算 时 延 和 关键 技术 主要 可 分 为 离线 
批 处 理 、 大 内 存 计算 、 交 互 式 计算 三 种 计算 模式 。 按 照 计算 时 延 的 高 低 , 我 们 提出 并 绘制 如 
图 3-12 所 示 的 大 数据 计算 光谱 ,图 中 左 端 深 蓝 色 表 示 时 延 大 、 速 度 慢 ; 右 端 橘红 色 则 表示 
时 延 短 、 速 度 快 。 光 谱 从 左 到 右 计 算 速 度 逐 渐 加 快 ,反映 出 不 同 计算 模式 在 这 个 计算 光谱 中 
所 处 的 位 置 。 









离线 批 处 理 计 算 在 线 交互 式 计算 





大 内 存 计算 








数据 规模 PB 以 上 TB~PB GB-TB 
时 延性 离线 计算 (分 钟 ~ 小 时 ) 在 线 分 析 ( 秒 ~ 分 钟 ) 实时 计算 ( 秒 级 ) 
计算 模型 MapReduce Dremel MemCloud 
Pregel Drill HANA 
HAMA Power Drill 
系统 结构 分 布 式 体系 分 布 式 体系 集中 式 结构 
采用 技术 "di 循环 提高 数据 内 存 存 驻 率 内 存 一 次 加 载 





硬盘 读 写 次 数 data locality 硬件 成 本 高 
columnar data structure 


图 3-12 大 数据 计算 光谱 


COD 离线 批 处 理 模型 : 如 GFS、HDFS、NoSQL、MapReduce, 业 界 主 流 模式 ,技术 成 熟 ， 
数据 规模 大 ,但 时 效 性 差 。 

(2) 内 存 计算 模型 : 如 HANA、Spark、MemCloud, 计 算 速 度 快 ,但 需要 大 规模 集中 式 
内 存 结构 支持 ( 若 为 分 布 式 则 受制 于 网 络 传输 速度 ) ,技术 成 熟 度 不 够 。 

(3) ZERRE, Google 有 Dremel, PowerDrill, Apache 有 Drill, 通过 data 
locality in-memory buffer, columnar data structure 等 技术 来 提高 计算 速度 ,以 现 有 计算 架 
构 和 软件 技术 为 基础 , 具 可 行 性 ; 但 目前 技术 分 散 ,缺乏 一 个 集成 平台 。 
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习题 


l. 描述 大 数据 参考 架构 主要 角色 。 

2. 阔 述 大 数据 标准 体系 中 6 个 类 别 的 标准 。 

3. 根据 数据 规模 .时 延性 `. 计 算 模型 ,系统 结构 ,关键 技术 5 个 维度 ,对 比 离线 批 处 理 计 
算 、 在 线 交互 式 计算 ,及 大 内 存 计算 的 区 别 。 


s 4 


ut 


数据 采 








数据 采集 通过 一 种 媒介 ,将 来 自 外 部 世界 的 数据 进行 汇集 ,并 将 汇集 的 数据 导入 到 内 部 
系统 中 。 数 据 采 集 广 泛 应 用 于 各 个 领域 ,包括 电子 商务 .金融 .医疗 等 ,数据 采集 的 媒介 包括 
笔记 本 .手机 、 传 感 器 等 。 

在 互联 网 高 速 发 展 的 今天 ,数据 采集 已 经 被 广泛 应 用 于 互联 网 相关 的 各 个 领域 。 总 的 
来 说 ,互联 网 背景 下 的 数据 采集 方式 主要 包括 三 类 : 系统 日 志 采 集 , 网 络 数据 采集 ,数据 接 
口 采集 。 


4.1 系统 日 志 采 集 


日 志 是 一 个 计算 机 领域 中 广泛 使 用 的 概念 。 计 算 机 中 的 任何 程序 都 可 以 输出 日 志 , 这 
些 程序 包括 操作 系统 内 核 , 各 种 应 用 服务 器 等 。 在 各 类 程序 产生 的 日 志 中 ,内 容 、 规 模 和 用 
途 各 不 相同 。 在 本 章 中 ,日 志 特 指 互 联网 领域 的 Web His. 

Web 日 志 包 含 各 种 前 端 Web 服务 器 产生 的 用 户 访问 日 志 , 以 及 各 种 Web 应 用 程序 输 
出 的 日 志 。 在 Web 日 志 记 录 中 ,每 条 日 志 通 常 代表 着 用 户 的 一 次 访问 行为 。 例 如 ,下 面 就 
是 一 条 典型 的 日 志 记 录 : 

211. 87. 152. 44 - [18/Mar/2005:12:21:42 +0800 ]“GET / HTTP/1. 1”200 899 
“http://www. baidu. com/"" Mozilla/4. 0 (compatibles MSIE 6. 0; Windows NT 5.1; 
Maxthon)” 

上 面 这 条 日 志 反 映 了 很 多 有 用 的 信息 ,例如 ,访问 者 的 全, 访问 时 间 、 访 问 的 目标 网 页 、 
来 源 的 地 址 以 及 访问 者 使 用 的 客户 端 信息 等 。 如 果 需 要 获取 更 多 的 信息 , 则 需要 采用 特定 
的 方法 。 例 如 ,想得到 用 户 屏 幕 的 分 辩 率 ,一 般 需 要 使 用 JS 代码 单独 发 送 请 求 ; 而 如 果 想 
得 到 用 户 访问 的 具体 新 闻 标题 , 则 需要 Web 应 用 程序 在 自己 的 代码 里 输出 中 。 
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4.1.1 日 志 采 集 的 目的 


日 志 采 集 的 主要 目的 是 为 了 进行 日 志 分 析 中 。Web 日 志 中 包含 大 量 人 们 感 兴趣 的 信 

。 例 如 ,可 以 从 日 志 记 录 中 获取 网 站 每 个 页 面 的 页 面 访问 量 、 访 问 用 户 的 独立 IP 数 ; 此 
外 ,还 可 以 获取 一 些 较 为 复杂 的 信息 .。 例如 ,统计 出 关键 词 的 检索 频次 排行 榜 、 用 户 停留 时 
间 最 长 的 页 面 ,甚至 可 获取 更 复杂 的 信息 ,包括 构建 广告 点 击 量 模型 .用户 行为 特征 分 析 等 。 

既然 日 志 数 据 中 蕴藏 了 如 此 大 的 价值 ,那么 当然 需要 一 些 工具 帮助 我 们 来 分 析 它 们 , 例 
如 Awstats、Webalizer, 都 是 专门 用 于 对 Web 服务 器 日 志 进 行 统计 分 析 的 开源 程序 。 另 外 ， 
还 有 一 类 产品 ,虽然 不 直接 分 析 日 志 , 但 提供 页 面 中 嵌入 TS 代码 的 方式 统计 数据 。 典 型 的 
产品 包括 Google Analytics、 国 内 的 Cnzz 百度 统计 等 。 

很 多 读者 可 能 会 问 ,既然 有 如 此 多 的 Web 日 志 分 析 工 具 , 为 什么 还 需要 自己 来 采集 日 
志 , 有 必要 吗 ? 当然 有 。 业 务 部 门 对 数据 分 析 的 需求 总 是 随 着 公司 业务 不 断 变化 的 。 上 述 
的 几 类 分 析 工 具 虽 然 强大 ,但 显然 没 办 法 满足 所 有 的 业务 分 析 需 求 。 无 论 是 本 地 的 分 析 工 
具 , 还 是 在 线 的 分 析 服 务 ,虽然 能 满足 常规 的 统计 分 析 需 求 , 但 它们 的 分 析 能 力 与 无 穷 无 尽 
的 业务 需求 相 比 依然 有 限 。 想 要 进行 稍 复杂 的 个 性 化 分 析 ,依然 需要 自己 动手 来 采集 日 志 
数据 。 

另外 , 绝 大 多 数 的 日 志 分 析 工 具 都 仅 限于 单机 使 用 , 当 数据 量 的 增长 超过 单机 处 理 的 范 
围 , 这 些 分 析 工 具 就 没 办 法 了 。 同 时 ,提供 在 线 分 析 服 务 的 网 站 对 单个 站 点 通常 也 都 有 最 大 
流量 的 限制 , 故 对 能 够 分 析 的 数据 样本 量 也 有 较为 严格 的 限制 。 综 上 所 述 ,日 志 采 集 的 主要 
目的 是 为 了 日 志 分 析 ,而 日 志 分 析 是 和 业务 部 门 的 具体 需求 紧密 联系 的 。 


4.1.2 日 志 采 集 过 程 


日 志 数 据 的 采集 是 通过 设备 中 的 日 志 记录 子 系统 实现 的 ,这 个 子 系统 能 够 在 必要 的 时 
候 生成 日 志 消 息 。 当 然 ,具体 的 日 志 信 息 采 集 方 式 取决 于 设备 。 例 如 ,可 以 对 设备 进行 手工 
pii 也 可 以 通过 硬 编码 让 设备 自身 生成 一 系列 的 预 设 消息 。 此 外 ,必须 使 用 日 志 主 机 来 接 
日 志 消 息 。 日 志 主 机 是 一 个 基于 UNIX 或 者 Windows 的 服务 器 系统 , 它 用 来 集中 存储 日 
ee 日 志 主 机 可 以 集中 存储 来 自 多 个 数据 源 的 日 志 消 息 ,可 以 对 系统 日 志 信 息 进 行 备 
f. E A a 
志 主 机 可 以 接收 日 志 消 息 ,读者 可 能 会 问 : 日 志 消 息 是 如 何 传输 到 日 志 主 机 的 ? 最 
syslog 协议 实现 的 , 它 是 日 志 消 息 交换 的 一 种 标准 中。syslog 协议 常见 
于 UNIX 系统 中 ,也 存在 于 Windows 和 其 他 平台 上 , 它 实现 了 覆盖 几乎 所 有 客户 端 和 服务 
器 端 组 件 间 的 通信 ,并 主要 采用 用 户 数据 报 协议 (UDP)。 当 然 ,为 了 提高 传输 的 可 靠 性 ， 
syslog 协议 同样 支持 传输 控制 协议 (TCP)。 客 户 端 部 分 包括 发 送 日 志 数 据 的 终端 设备 ,而 
服务 器 端 通常 部 署 在 日 志 主 机 上 。 日 志 主 机 的 主要 工作 就 是 通过 syslog 协议 采集 日 志 消 
息 ,并 将 其 存储 在 一 个 本 地 磁盘 上 ,以 进行 日 志 备份 .存储 和 分 析 。 
值得 注意 的 是 , syslog 协议 并 不 是 唯一 的 日 志 数 据 传输 机 制 。 例 如 ,微软 就 为 
Windows 用 户 开发 了 自己 的 日 志 记 录 系 统 , 称 作 Window 事件 日 志 (Windows Event Log). 
Windows 用 户 的 登录 注销 操作 、 应 用 程序 消息 的 存储 都 采用 专 有 的 模式 。 当 然 ,为 了 和 
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syslog 日 志 兼 容 , 微软 也 提供 了 Windows 应 用 程序 ,用 来 将 Windows 事件 日 志 转 换 成 
syslog 上 日志, 以 发 送 给 syslog 服务 器 。 

由 于 syslog 日 志和 Windows 事件 日 志 均 非常 流行 ,人 们 往往 将 它们 看 作 非 官方 承认 
的 日 志 记录 标准 。 除 此 之 外 ,其 他 常用 的 日 志 协 议 如 下 喇 。 

LEA; 日 志 提取 APICLog Extraction API,LEA) 是 Checkpoint 公司 用 于 从 它 的 防火 
墙 和 安全 产品 线 收集 日 志 的 API 

SDEE: 安全 设备 事件 交换 (Security Device Event Exchange,SDEE) 是 思科 公司 用 于 
从 它 的 入 侵 预 防 系统 (IPS) 设 备 产 品 线 收集 日 志 消 息 的 ,此 协议 是 基于 可 扩展 标记 语言 
(XML) 的 。 

E-Streamer: E-Streamer 是 Sourcefire 公司 为 其 IPS 开发 的 专 有 协议 。 


4.2 网 络 数 据 采集 


互联 网 承载 了 海量 的 信息 ,但 如 何 有 效 地 提取 并 利用 这 些 信 息 是 一 个 巨大 的 挑战 。 搜 
索引 擎 是 一 个 辅助 人 们 检索 信息 的 工具 , 它 可 作为 用 户 访问 互联 网 的 人口。 但 是 ,通用 性 的 
搜索 引擎 存在 着 一 定 的 局 限 性 ,例如 : 

(1) 特定 领域 ,特定 背景 的 用 户 通常 具有 特定 的 检索 目的 ,而 通用 搜索 引擎 返回 的 结果 
可 能 包含 大 量 的 无 用 网 页 信息 。 

(2) 通用 搜索 引擎 的 目标 是 尽 可 能 提升 网 络 的 覆盖 率 , 但 这 会 造成 有 限 的 搜索 引擎 服 
务 资源 与 无 限 的 网 络 数据 资源 之 问 的 矛盾 。 

(3) 随 着 网 络 技术 的 不 断 发 展 , 互 联网 中 的 数据 形式 越 来 越 丰富 。 图 片 数据库 音频、 
视频 多 媒体 等 不 同类 型 的 数据 大 量 出 现 。 通 用 搜索 引擎 往往 无 法 对 这 些 信息 含量 密集 且 具 
有 一 定 结构 的 数据 进行 获取 。 

(4) 目前 ,通用 搜索 引擎 大 多 仅 提供 基于 关键 字 的 检索 ,它们 难以 支持 基于 语义 信息 的 
查询 和 检索 。 


4.2.1 WKE R TEE 


H T fit deis RR 5| SE fr TE P9 E, DLE I8] D A DE E R A HB TT H R EE ER 
MOZTE o R EER p 5 BE DO HUR E ER ,选择 性 地 访问 互联 网 上 的 网 页 相关 链接 ,从 而 获 
取 所 需要 的 信息 。 聚 焦 仆 虫 并 不 追求 网 页 的 全 面 获 盖 , 而 是 将 目标 定 为 抓 取 与 某 一 特定 主 
题 内 容 相 关 的 网 页 ,为 面向 主题 的 用 户 查询 准备 数据 资源 。 

网 络 怜 虫 的 技术 框架 包括 控制 器 、 解 析 器 .资源 库 三 大 部 分 。 控 制 器 的 主要 工作 是 为 各 
个 线程 分 配 工作 任务 ,并 调度 爬虫 的 线程 资源 。 解 析 器 的 主要 工作 是 批量 下 载 网 页 ,并 对 页 
面 的 格式 和 内 容 进行 处 理 , 包 括 清除 JS 脚本 标签 .CSS 代码 内 容 、 空 格 字 符 .HTML 标签 等 
内 容 。 资 源 库 的 主要 工作 是 存储 下 载 到 的 网 页 资源 ,其 通常 采用 大 型 的 数据 库存 储 模型 ,如 
Oracle 数据 库 或 非 关 系 型 数据 库 , 并 对 数据 建立 索引 。 

网 络 仆 虫 往往 从 一 个 初始 网 页 的 URL 开始 工作 ,首先 获得 初始 网 页 上 的 URL。 在 抓 
取 网 页 的 过 程 中 ,需要 根据 网 页 分 析 算 法 过 滤 与 主题 无 关 的 链接 ,保留 有 用 的 链接 并 将 其 放 
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入 等 待 抓 取 的 URL 队列 中 。 然 后 ,网 络 怜 虫 根据 某 种 搜索 策略 从 队列 中 选择 下 一 次 要 抓 
取 的 网 页 URL, 并 重复 上 述 过 程 ,直到 达到 系统 的 某 一 停止 条 件 , 例 如 ,搜索 时 长 或 搜索 页 
面 数量 达到 某 一 阔 值 。 另 外 ,所 有 被 疏 虫 抓 取 的 网 页 会 自动 被 系统 存储 ,并 建立 索引 ,以 便 
之 后 的 查询 和 检索 。 


4.2.2 网 页 搜索 策略 


网 络 怜 虫 工作 过 程 中 的 一 个 重要 组 成 部 分 是 网 页 搜索 策略 。 网 页 的 搜索 策略 按照 搜索 
次 序 不 同 , 可 以 分 为 深度 优先 .广度 优先 和 最 佳 优先 三 种 搜索 策略 。 深 度 优先 在 很 多 情况 下 
会 导致 苔 虫 的 陷 人 问题 , 故 使 用 较 少 。 而 目前 常见 的 搜索 策略 是 广度 优先 和 最 佳 优先 方法 吕 。 

深度 优先 的 搜索 策略 表述 如 下 : 首先 跳 转 进入 起 始 网 页 的 URL. 链接 ,分 析 这 个 网 页 中 
所 包含 的 URL 链接 ,选择 其 中 一 个 URL 链接 进入 。 如 此 一 个 链接 一 个 链接 地 选择 并 跳 转 
进入 ,直到 访问 完 路 径 中 的 最 后 一 个 URL。 之 后 再 回 到 上 一 层 URL 链接 ,处 理 下 一 条 路 
径 。 深 度 优先 搜索 策略 存在 如 下 问题 : 起 始 网 页 通常 是 网 站 主页 ,其 提供 的 链接 往往 最 具 
价值 ,浏览 和 点 击 量 最 高 。 随 着 每 一 层 URL 的 深入 ,网 页 的 价值 和 点 击 量 都 会 相应 地 有 所 
下 降 。 这 表明 重要 网 页 通常 距离 起 始 网 页 的 跳 转 次 数 较 少 ,而 多 次 跳 转 抓 取 到 的 网 页 价值 
往往 很 低 。 相 对 于 其 他 搜索 策略 而 言 ,深度 优先 的 搜索 策略 在 实际 搜索 过 程 中 很 少 被 使 用 。 

广度 优先 的 搜索 策略 和 深度 优先 策略 不 同 。 它 在 抓 取 URL. 的 过 程 中 ,只 有 完成 当前 
层级 的 搜索 后 , 才 跳 转 到 下 一 层级 进行 搜索 。 广 度 优 先 搜索 算法 的 基本 思想 是 : 与 初始 网 
页 URL 在 有 限 跳 转 次 数 范围 内 的 网 页 具有 主题 相关 性 的 概率 很 大 。 这 个 思想 的 正确 性 也 
在 实践 中 被 多 次 证 明 过 , 即 门户 网 站 首页 中 包含 的 URL 往往 最 具有 搜索 价值 外。 此 外 , 广 
度 优先 搜索 通常 与 网 页 过 滤 技术 结合 使 用 , 先 用 广度 优先 策略 抓 取 网 页 ,再 过 滤 掉 与 主题 无 
关 的 网 页 。 然 而 ,这 种 方法 的 缺点 在 于 : 随 着 抓 取 网 页 数量 的 增多 ,大 量 的 无 关 网 页 将 被 下 
载 并 过 滤 ,算法 的 效率 将 会 变 低 。 

最 佳 优先 搜索 策略 是 基于 降低 广度 优先 搜索 策略 的 算法 复杂 度 而 进行 优化 的 。 最 佳 优 
先 搜索 策略 按照 特定 的 网 页 分 析 算法 ,预测 候选 URL 与 主题 的 相关 性 ,筛选 并 抓 取 最 相关 
的 某 些 URL。 最 佳 优先 搜索 策略 与 基于 网 页 过 滤 技 术 的 广度 优先 搜索 的 区 别 在 于 : 前 者 
是 在 抓 取 网 页 之 前 先 分 析 网 页 的 价值 ,而 后 者 是 先 抓 取 网 页 ,再 将 其 中 无 关 的 网 页 过 滤 掉 。 
因此 ,理论 上 来 说 , 随 着 抓 取 网 页 的 增多 ,最 佳 优 先 搜索 策略 的 算法 效率 依然 较 高 。 研 究 表 
明 , 最 佳 优先 搜索 策略 可 以 将 无 关 网 页 的 数量 降低 90% 左 右 。 然 而 ,最 佳 优先 策略 存在 的 
一 个 问题 是 : 可 能 忽略 掉 爬 虫 抓 取 路 径 上 的 很 多 相关 网 页 。 为 了 克服 最 佳 优先 策略 的 这 一 
问题 ,需要 将 最 佳 优 先 检索 策略 进行 改进 ,以 跳出 局 部 最 优点 ,降低 有 用 网 页 的 丢失 概率 。 


4.2.3 网 页 分 析 算 法 


除了 网 页 搜索 策略 外 ,网 络 爬 虫 的 另 一 个 重要 组 成 部 分 就 是 网 页 分 析 算法 。 本 节 重 点 
介绍 基于 拓扑 分 析 的 网 页 分 析 算 法 。 

基于 拓扑 的 网 页 分 析 算法 是 基于 网 页 之 间 的 链接 ,通过 已 知 的 网 页 ,对 与 其 有 直接 或 间 
接 链接 关系 的 对 象 做 出 评价 的 算法 。 拓 扑 网 页 分 析 算 法 又 分 为 网 页 粒度 网 站 粒度 和 网 页 
块 粒度 这 三 种 具体 的 分 析 算 法 。 


人 大 数据 分 析 与 计算 


1. 网 页 粒度 算法 

PageRank 和 HITS 算法 是 最 常见 的 两 种 网 页 粒度 分 析 算 法 ,两 者 都 是 通过 对 网 页 间 连 
接 度 的 递归 ,得 到 每 个 网 页 的 重要 度 评 价 。PageRank 通过 某 页 面 所 有 的 超 链接 关系 来 确 
定 一 个 页 面 的 重要 等 级 。 它 把 从 A 页 面 到 B 页 面 的 链接 解释 为 A 页 面 给 B 页 面 投票 ， 
根据 投票 来 源 和 投票 目标 的 等 级 来 决定 新 的 页 面 的 等 级 。PageRank 算法 忽略 了 绝 大 多 数 
用 户 访问 时 带 有 的 目的 性 , 即 网 页 链接 与 查询 主题 的 相关 性 。 为 解决 这 个 问题 ,HITS 算法 
提出 了 两 个 关键 的 指标 : 内 容 权 威 度 (Authority) 和 链接 权威 度 (Hub) ,并 利用 这 两 个 指标 
对 网 页 质量 进行 评估 。 其 基本 思想 是 利用 页 面 之 间 的 引用 链 来 挖掘 隐 含 在 其 中 的 有 用 信息 
(如 权威 性 ) ,具有 计算 简单 且 高 效 的 特点 。HITS 算法 认为 对 每 一 个 网 页 应 该 将 其 内 容 权 
威 度 和 链接 权威 度 分 开 来 考虑 ,在 对 网 页 内 容 权 威 度 做 出 评价 的 基础 上 再 对 页 面 的 链接 权 
威 度 进行 评价 ,然后 给 出 该 页 面 的 综合 评价 。 内 容 权威 度 与 网 页 自身 直接 提供 内 容 信息 的 
质量 相关 ,被 越 多 网 页 所 引用 的 网 页 ,其 内 容 权威 度 越 高 ; 链接 权威 度 与 网 页 提供 的 超 链 接 
页 面 的 质量 相关 ,引用 越 多 高 质量 页 面 的 网 页 ,其 链接 权威 度 越 高 加 。 

2. 网 站 粒度 算法 

基于 网 站 粒度 的 怜 虫 算法 ,其 算法 实现 的 关键 在 于 站 点 的 划分 和 站 点 等 级 (SiteRank) 
的 计算 。SiteRank 的 计算 方法 与 PageRank 类 似 , 但 是 需要 对 网 站 之 间 的 链接 做 一 定 程度 
的 抽象 ,并 在 一 定 的 模型 下 计算 链接 的 权重 。 

网 站 划分 情况 分 为 按 域 名 划分 和 按 IP 地 址 划分 两 种 。 本 章 参 考 文献 [6] 讨 论 了 在 分 布 
式 情况 下 ,通过 对 同一 个 域名 下 不 同 主机 、 服 务 器 的 IP 地 址 进行 站 点 划分 ,构造 站 点 图 , 利 
用 类 似 PageRank 的 方法 评价 SiteRank。 同 时 ,根据 不 同文 件 在 各 个 站 点 上 的 分 布 情况 , 构 
造 文档 图 ,结合 SiteRank 分 布 式 计 算得 到 DocRank。 利 用 分 布 式 的 SiteRank 计算 ,不 仅 大 
大 降低 了 单机 站 点 的 算法 代价 ,而 且 克服 了 单独 站 点 对 整个 网 络 槛 盖 率 有 限 的 缺点 。 

3. 网 页 块 粒 度 算法 

在 一 个 页 面 中 ,往往 含有 多 个 指向 其 他 页 面 的 链接 ,这 些 链 接 中 只 有 一 部 分 是 指向 主题 
相关 网 页 的 。 但 是 ,在 PageRank 和 HITS 算法 中 ,没有 对 这 些 链接 做 区 分 ,因此 常常 给 网 
页 分 析 带 来 广告 等 噪声 链接 的 干扰 。 在 网 页 块 级 别 进行 链接 分 析 的 基本 思想 是 将 网 页 分 割 
为 不 同 的 网 页 块 ,然后 对 这 些 网 页 块 建立 链接 矩阵 。 本 章 参考 文献 [6] 介 绍 了 块 级 别 的 
PageRank 和 HITS 算法 ,并 通过 实验 证 明 , 其 效率 和 准确 率 都 比 传统 的 对 应 算法 要 好 。 


4.2.4 WA fe He 
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中 不 同 组 件 的 命名 及 其 特点 的 简短 描述 。 

RBSE(Eichmann, 1994) 是 第 一 个 发 布 的 怜 虫 。 它 有 两 个 基础 程序 。 第 一 个 是 
“spider”, 抓 取 网 页 中 的 URL ,并 存储 到 一 个 关系 数据 库 中 ; 第 二 个 程序 是 “mite”, 它 是 一 
个 修改 后 的 WWW 的 ASCI 浏 览 器 ,负责 从 网 络 中 下 载 页 面 。 

WebCrawler(Pinkerton,1994) 是 第 一 个 公开 可 用 的 建立 全 文 索引 的 程序 , 它 使 用 库 
www 来 下 载 页 面 ,使 用 广度 优先 来 解析 获取 URL, 并 对 其 进行 排序 。 此 外 , 它 还 包括 一 个 
根据 选 定 文本 和 查询 相似 程度 怜 行 的 实时 和 怜 虫 。 
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World Wide Web Worm(McBryan. 1994) 是 一 个 用 来 为 文件 建立 包括 标题 和 URL 简 
单 索引 的 仆 虫 ,其 索引 可 以 通过 grep 式 的 UNIX 命令 来 实现 。 

Google Crawler(Brin and Page，1998) 集 成 了 索引 处 理 ,支持 全 文 检索 和 URL. 抽取 。 
它 拥有 一 个 URL 服务 器 ,用 来 提供 发 送 怜 虫 程序 时 要 抓 取 的 URL 列表 。 在 文本 解析 的 时 
候 ,URL 服务 器 负责 检测 某 个 新 的 URL 是 否 已 经 存在 。 如 果 不 存在 ,就 将 此 URL 加 入 到 
URL 服务 器 中 。 

CobWeb(da Silva et al. ,1999) 使 用 了 一 个 中 央 “ 调 度 者 "和 一 系列 的 “分 布 式 搜集 者 ”。 
搜集 者 解析 下 载 到 的 页 面 ,并 把 获取 的 URL 发 送 给 调度 者 ,进而 分 配给 搜集 者 。 调 度 者 使 
用 深度 优先 策略 ,并 且 使 用 平衡 策略 来 避免 服务 器 超载 。 此 疏 虫 是 使 用 Perl 语言 编写 的 。 

Mercator( Heydon and Najork, 1999; Najork and Heydon, 2001) 是 一 个 分 布 式 的 、 模 
块 化 的 网 络 怜 虫 。 它 的 模块 化 源 自 于 使 用 可 互 换 的 “协议 模块 ?和 ”处 理 模块 >。 协 议 模块 负 
责 获取 网 页 (例如 使 用 HTTP) ,处 理 模块 负责 处 理 页 面 。 标 准 处 理 模块 仅 包括 解析 页 面 和 
抽取 URL, 其 他 处 理 模块 可 以 用 来 检索 文本 页 面 , 或 者 搜集 网 络 数据 。 

WebFountain(Edwards et al. . 2001) 是 一 个 类 似 于 Mercator 的 分 布 式 模块 化 息 虫 , 采 
用 Ct+ 编 写 ,特点 是 一 个 管理 员 机 器 控制 一 系列 的 蚂蚁 机 器 。 经 过 多 次 下 载 页 面 后 ,可 以 推 
测 出 页 面 的 变化 率 。 此 外 ,通过 求解 非 线 性 方程 ,可 以 获得 该 息 虫 的 最 大 新 鲜 度 访问 策略 。 

PolyBot(Shkapenyuk and Suel, 2002) 是 一 个 使 用 C++ 和 Python 编写 的 分 布 式 网 络 疏 
虫 。 它 由 一 个 候 虫 管理 者 、 多 个 下 载 者 ,多 个 DNS 解析 者 组 成 。 抽 取 到 的 URL 被 添加 到 
硬盘 中 的 一 个 队列 里 ,然后 使 用 批 处 理 的 模式 处 理 这 些 URL, 

WebRACE(Zeinalipour-Yazti and Dikaiakos. 2002) 是 Java 编写 实现 的 ,拥有 检索 模块 
和 缓存 模块 的 怜 虫 。 系 统 获 取 用 户 下 载 页 面 的 请 求 ,并 监视 订阅 网 页 的 请 求 。 当 网 页 发 生 
改变 的 时 候 , 它 必须 让 怜 虫 下 载 更 新 这 个 页 面 并 且 通 知 订阅 者 。WebRACE 最 大 的 特点 是 ， 
当 大 多 数 的 怜 虫 都 从 一 组 URL 开始 的 时 候 , WebRACE 可 以 连续 地 接收 并 抓 取 最 初 的 
URL 地 址 。 

Ubicrawer( Boldi et al. ,2004) 是 一 个 使 用 Java 4& E S: AI 1f 3X fe. CRA rp e 
程序 ,而 是 由 一 组 完全 相同 的 代理 组 成 。 其 分 配 功 能 是 通过 主机 前 后 一 致 的 散 列 计算 进行 
的 ,具有 高 伸缩 性 和 允许 失败 的 特点 。 


4.3 数据 采集 接口 


网 络 应 用 程序 分 为 前 端 和 后 端 两 个 部 分 。 当 前 的 发 展 趋势 是 前 端 设备 层出不穷 ,从 桌 
面 PC 发 展 到 笔记 本 、 手 机 ,平板 等 。 因 此 ,必须 有 一 种 统一 的 机 制 ,方便 不 同 的 前 端 设备 与 
后 端 进行 数据 通信 。 这 导致 API 构架 的 流行 ,甚至 出 现 API First 的 设计 思想 。REST API 
是 目前 比较 成 熟 的 一 套 互联 网 应 用 程序 的 API 设计 理论 。 微 博 、 微 信 公 众 号 等 常用 的 商用 
数据 API 都 支持 REST API 的 方式 获取 数据 信息 。 

REST 从 资源 的 角度 来 观察 整个 网 络 分布 在 各 处 的 资源 由 URL 定位 ,而 客户 端 应 用 
通过 URL 来 获取 资源 。 随 着 不 断 访问 URL 来 获取 资源 ,客户 端 应 用 不 断 地 转变 状态 。 
REST 通常 基于 使 用 HTTP、URL、XML、HTML 这 些 广泛 流行 的 协议 和 标准 , 故 它 是 一 种 
风格 ,不 是 一 个 标准 。REST 对 资源 的 操作 包括 获取 、 创 建 、 修 改 和 删除 ,这 些 操 作 正 好 对 应 
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HTTP 提供 的 GET、POST、PUT 和 DELETE 方 法 。 
RESTful Web 服务 (也 称 为 RESTful Web API) 是 一 个 使 用 HTTP 并 遵循 REST 原则 

的 Web 服务 。 它 基于 以 下 三 方面 资源 进行 定义 。 
(D URI, 参 见 http://example. com/resources/。 
(2) Web 服务 接收 与 返回 的 互联 网 媒体 类 型 ,比如 JSON XML 等 。 
(3) Web 服务 所 支持 的 一 系列 资源 请 求 方法 (比如 POST,GET,PUT 1 DELETE), 
表 4-1 列 出 了 在 实现 RESTful Web 服务 时 ,HTTP 请 求 方法 的 典型 应 用 。 


表 4-1 


HTTP 请 求 方法 的 典型 应 用 


POST 


DELETE 





一 组 资源 的 URL, 比 
如 http://example. 


com/resources/ 


列 出 URL, 以 及 该 资 
源 组 中 每 个 资源 的 
详细 信息 


使 用 给 定 的 一 组 资 
源 蔡 换 当 前 整 组 
资源 


在 本 组 资源 中 创建 / 
追加 一 个 新 的 资源 。 
该 操作 往往 返回 新 
资源 的 URL 


删除 整 组 
资源 





单个 资源 的 URL, 比 
如 http://example. 


com/resources/142 





获取 指定 的 资源 的 
详细 信息 ,格式 可 以 
自选 一 个 合适 的 网 
络 媒体 类 型 (比如 : 
XML JSON 等 ) 





替换 /创建 指定 的 资 
源 , 并 将 其 追加 到 相 
应 的 资源 组 中 





把 指定 的 资源 当 作 
一 个 资源 组 ,并 在 其 
下 创建 /追加 一 个 新 
的 元 素 ,使 其 隶属 于 
当前 资源 





删除 指定 
的 元 素 
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习题 


. 什么 是 日 志 采 集 ? 日 志 采 集 的 主要 目的 是 什么 ? 

. 日 志 采 集 的 主要 过 程 是 什么 ? 传输 协议 有 哪些 ? 

. 请 简 述 网 络 怜 虫 的 工作 原理 。 

. 网 络 搜索 的 方法 有 几 种 ? 请 简 述 每 种 网 络 搜索 的 原理 ,并 比较 不 同 搜索 算法 的 优 
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5. RESTful Web 是 基于 哪些 资源 进行 定义 的 ? 








近年 来 , 随 着 信息 产业 的 快速 发 展 , 人 们 积累 的 数据 越 来 越 多 。 激 增 的 数据 背后 隐藏 着 
许多 重要 的 信息 ,如 何 对 其 进行 深入 的 分 析 , 以 便 更 好 地 利用 这 些 数据 , 变 得 越 来 越 重要 。 
数据 挖掘 技术 在 这 种 背景 下 应 运 而 生 。 

现实 中 的 数据 总 是 错综复杂 的 。 总 体 而 言 , 不 可 避免 地 存在 宛 余 数据 、 缺 失 数 据 、 不 确 
定数 据 和 不 一 致 数据 等 诸多 情况 ,这样 的 数据 统称 为 “ 脏 数据 *”。 要 在 过 去 或 现存 的 数据 基 
础 上 为 将 来 的 企业 发 展 做 决策 或 预测 时 .数据 的 质量 问题 就 变 得 很 关键 。 错 误 的 数据 会 导 
致 错误 的 决策 结果 ,影响 信息 服务 的 质量 。 因 此 ,数据 挖掘 之 前 必须 对 数据 进行 一 系列 的 预 
处 理工 作 。 大 量 的 事实 表明 ,在 数据 挖掘 工作 中 ,数据 预 处 理 所 占 的 工作 量 达 到 了 整个 工作 
量 的 6096 — 80 40? , 

数据 预 处 理 就 是 在 数据 挖掘 前 , 先 对 原始 数据 进行 必要 的 清洗 、 集 成 转换、 离散 和 归 约 
等 一 系列 的 处 理工 作 ,使 之 达到 挖掘 算法 进行 知识 获取 研究 所 要 求 的 最 低 规范 和 标准 上 。 
通过 数据 预 处 理工 作 ,可 以 纠正 错误 的 数据 ,去除 多 余 的 数据 挑选 并 集成 所 需 的 数据 、 转 换 
数据 的 格式 ,从 而 达到 数据 格式 一 致 化 .数据 信息 精练 化 。 总 而 言 之 ,经 过 预 处 理 之 后 ,可 以 
获取 数据 挖掘 所 要 求 的 数据 集 。 具 体 来 说 ,数据 预 处 理 的 主要 任务 如 下 5 。 

(1) 数据 清洗 : 填补 缺失 数据 、 消 除 噪声 数据 等 。 数 据 清 洗 的 原理 ,就 是 通过 分 析 “ 脏 
数据 ”的 产生 原因 和 存在 形式 ,将 “ 脏 数据 ”转化 为 满足 应 用 要 求 的 数据 ,从 而 提高 数据 集 的 
数据 质量 。 

(2) 数据 集成 : 将 所 用 的 数据 统一 存储 在 数据 库 、 数 据 仓 库 或 文件 中 形成 一 个 完整 的 
数据 集 , 这 一 过 程 主要 用 于 消除 宛 余数 据 。 

(3) 数据 转换 : 主要 是 对 数据 进行 规格 化 操作 ,如 将 数据 值 限定 在 特定 的 范围 之 内 。 

(4) 数据 归 约 : 剔除 无 法 刻画 系统 关键 特征 的 数据 属性 ,只 保留 部 分 能 够 描述 关键 特 
性 的 数据 属性 集合 。 
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5.1 数据 预 处 理 研究 现状 


数据 预 处 理 技术 在 理论 和 应 用 上 都 获得 了 较 大 的 进展 , 现 阶 段 该 领域 研究 最 多 的 是 数 
据 清洗 和 数据 归 约 技术 ,下 面 将 国内 外 有 关 这 两 方面 技术 的 研究 现状 概述 如 下 。 


5.1.1 数据 清洗 的 研究 现状 


数据 清洗 技术 的 研究 ,最 早 是 从 纠正 美国 的 社会 保险 号 开始 的 四 。 后 来 随 着 信息 业 和 
商业 的 快速 发 展 ,加 速 了 这 方面 技术 的 研究 。 研 究 内 容 主要 涉及 以 下 几 方 面 。 

(1) 对 数据 集 进行 异常 检测 。 通 常 采用 统计 方法 ,检测 数据 的 数值 型 属性 ,通过 计算 属 
性 值 的 均值 和 标准 差 等 指标 ,在 每 一 个 属性 的 置信 区 间 内 识别 异常 的 属性 和 记录 。 

O) 对 数据 对 象 去 重 。 数 据 去 重 的 过 程 就 是 重复 清洗 数据 记录 的 过 程 四 。 这 个 过 程 在 
数据 仓库 应 用 中 特别 重要 ,因为 在 集成 来 自 不 同 数据 源 的 数据 时 ,可 能 产生 大 量 的 重复 数据 
记录 。 

(3) 对 缺失 数据 的 清洗 ”. 研究 者 大 多 采用 近似 值 蔡 换 缺失 值 的 方法 对 数据 进行 清 
洗 , 得 到 近似 值 的 方法 包括 贝 叶 斯 网 络 、 神 经 网 络 .KNN 分 类 ,粗糙 集 理论 等 ,这 些 方法 的 
核心 就 是 判断 缺失 记录 与 其 他 完整 记录 之 间 的 相似 度 。 

目前 来 说 ,国内 对 数据 清洗 技术 的 研究 ,还 处 在 一 个 初始 阶段 。 数 据 的 清洗 工作 ,主要 
集中 在 银行 .保险 和 证 券 等 对 客户 数据 的 准确 性 要 求 很 高 的 行业 。 这 些 行业 只 做 针对 自己 
客户 进行 数据 清洗 工作 , 且 只 开发 针对 具体 应 用 的 软件 。 目 前 还 没有 一 款 通用 的 数据 清洗 
软件 。 


5.1.2 数据 规约 的 研究 现状 


对 海量 数据 进行 数据 分 析 和 挖掘 需要 很 长 时 间 。 为 了 让 数据 挖掘 更 加 有 效 ,需要 对 数 
据 进行 归 约 。 数 据 规约 的 主要 研究 内 容 如 下 5 。 

O) 高 维度 数据 的 降 维 处 理 ， 该 过 程 主要 采用 删除 宛 余 数据 属性 的 方法 , 且 删 除 完 余 
的 数据 属性 往往 需要 用 到 某 领域 的 业务 知识 。 常 用 的 降 维 方法 包括 逐步 向 前 选择 法 、 逐 步 
向 后 删除 法 .判定 树 归纳 法 等 。 

(2) 减少 数据 量 ， 当 处 理 大 量 数据 需要 花费 较 长 的 时 间 时 ,无 法 满足 某 些 实时 性 要 求 
较 高 的 应 用 要 求 ,此 时 需要 对 数据 量 进行 缩减 。 此 过 程 采用 的 主要 方法 包括 直方 图 、. 聚 类 
等 ,进而 从 数据 集中 选择 较 小 规模 的 数据 。 

(3) 数据 离散 化 技术 。 该 技术 可 以 将 连续 属性 值 转换 为 离散 属性 值 , 降 低 属 性 值 的 个 
数 , 从 而 降低 处 理 数据 的 运算 时 间 。 

通常 来 说 ,数据 归 约 问题 是 一 个 NP 难题 。 目 前 为 止 ,人 们 已 经 在 规约 方面 做 了 许多 工 
作 , 也 提出 了 许多 算法 。 当 然 , 现 有 的 归 约 方法 大 部 分 都 是 在 属性 重要 性 和 基于 分 辨 矩阵 的 
基础 上 提出 的 。 
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5.2 数据 质量 问题 分 类 


数据 质量 问题 是 由 多 方面 原因 引起 的 ,也 通常 有 不 同 的 表现 形式 。 数 据 质量 问题 不 局 
限于 数据 错误 。 换 名 话说 ,即使 数据 本 身 没有 错误 ,也 可 能 随 着 新 的 数据 处 理 要 求 的 出 现 ， 
重新 对 原来 的 数据 进行 清洗 。 例 如 , 当 历 史 数 据 库 在 数据 结构 ,数据 属性 等 方面 不 能 满足 新 
的 数据 应 用 的 要 求 时 ,就 需要 通过 数据 清洗 来 提升 数据 质量 。 

数据 质量 问题 的 分 类 有 两 个 维度 ,如 图 5-1 所 示 。 一 是 按照 数据 源 的 数量 进行 分 类 , 数 
据 质量 问题 可 分 为 单数 据 源 和 多 数据 源 两 种 类 型 ; 二 是 按照 数据 问题 出 现 的 阶段 分 类 , 数 
据 质量 问题 可 分 为 模式 层 问题 和 实例 层 问 题 。 模 式 层面 的 问题 能 够 通过 改善 模式 设计 \ 模 
式 转换 和 模式 集成 加 以 解决 。 而 实例 层 的 质量 问题 是 指 在 实际 的 数据 内 容 中 存在 错误 和 不 
一 致 ,这 些 问 题 往 往 在 模式 层 是 不 可 见 的 ,需要 在 数据 清洗 过 程 中 解决 。 下 面 根据 数据 源 的 
个 数 分 类 ,讨论 单数 据 源 和 多 数据 源 的 数据 质量 问题 。 





数据 质量 问题 


2 


单数 据 源 质量 问题 多 数据 源 质量 问题 


2 


模式 层 EF 模式 层 实例 层 







































































唯一 性 拼写 错误 命名 冲突 
完整 性 约束 元 余 /记录 重复 结构 冲突 
属性 依赖 属性 值 冲 突 - 


值 的 不 同 表示 


重 得 /重复 记录 





图 5-1 数据 质量 问题 分 类 


5.2.1 单数 据 源 的 问题 


对 于 单个 数据 源 而 言 ,其 模式 层面 的 数据 质量 问题 很 大 程度 上 依赖 于 设计 模式 对 数据 
的 完整 性 约束 。 数 据 库 系统 中 的 完整 性 约束 决定 了 哪些 数据 值 是 可 以 被 接受 的 。 例 如 , 某 
个 数据 表示 日 期 时 ,需要 约束 日 期 值 的 格式 和 类 型 ,确保 数据 库 中 所 有 日 期 数据 的 格式 统 
一 。 然 而 ,对 于 文件 .Web 数据 这 些 没有 统一 约束 的 数据 源 来 说 ,造成 数据 值 错 误 和 不 一 致 
的 可 能 性 大 大 增加 。 此 外 ,对 于 数据 库 系统 而 言 ,即使 有 对 数据 的 完整 性 约束 ,但 由 于 数据 
应 用 要 求 的 改变 ,仍然 会 造成 数据 质量 的 问题 。 例 如 ,对 于 同一 个 数据 库 系统 ,由 于 应 用 场 
景 的 变化 ,表示 时 间 的 数据 格式 要 求 从 小 时 精确 到 分 钟 ,此 时 数据 的 格式 需要 调整 ,才能 够 
满足 新 的 数据 应 用 要 求 。 对 于 单个 数据 源 而 言 ,实例 层面 的 数据 质量 问题 是 模式 设计 层面 
无 法 避免 的 ,例如 数据 的 输入 错误 等 。 
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无 论 是 数据 模式 层 还 是 数据 实例 层 的 错误 ,我 们 可 以 根据 问题 所 属 的 层级 范围 分 成 以 
下 4 类 : 中 属性 内 部 ,这 类 错误 仅 局 限于 单个 属性 的 值 , 例 如 年 龄 的 值 为 2000; @ 记 录 内 部 
(属性 之 间 ) ,这 类 错误 表现 在 同一 条 记录 中 不 同属 性 值 的 不 一 致 ,例如 年 龄 和 生日 无 法 对 
应 ; @@ 数 据 源 内 部 (记录 之 间 ), 这 类 错误 表现 在 同一 个 数据 源 中 不 同 的 记录 之 间 的 不 一 臻 
关系 ,例如 同一 个 ID 的 姓名 不 一 致 ; @ 数 据 源 之 间 , 这 类 错误 表现 在 数据 源 中 的 某 些 属性 
值 和 其 他 数据 源 中 相关 值 的 不 一 致 关系 ,例如 同一 个 ID 对 应 的 年 龄 不 一 致 。 

对 于 不 同 层级 范围 的 数据 质量 问题 ,相应 的 数据 清洗 方法 也 有 所 不 同 。 因 此 ,明确 数据 
质量 问题 的 层级 范围 是 找到 合理 的 数据 清洗 方法 的 基础 。 图 5-1 中 两 张 表 分 别 列 出 了 单数 
据 源 在 数据 模式 层 和 数据 实例 层 常见 的 质量 问题 ,并 列举 了 相关 案例 。 图 5-2 中 的 一 些 质 
量 问题 看 起 来 比较 类 似 , 但 必须 注意 到 它们 之 间 的 本 质 区 别 : 列举 的 质量 问题 可 以 通过 改 
善 数据 模式 的 设计 、 增 加 必要 的 完整 性 约束 等 措施 来 解决 。 此 外 ,图 中 列举 的 质量 问题 则 往 


往 不 能 通过 上 述 措施 解决 ,而 是 需要 通过 数据 清洗 的 方法 加 以 解决 。 





















































范围 /问题 问题 数据 ( 脏 数据 ) 描 æ 
属性 | 不 合法 的 值 birth — 21.13.75 属性 值 超出 了 值 域 范围 
违反 了 属性 之 间 的 E eed 属性 age 和 birth 之 间 应 该 保持 age = 
记录 | 依赖 关系 和 current year — birth 这 样 一 种 依赖 关系 
雇员 l: name 一 “ 马 明 ”, wid = 
“1234567” 工 号 (wid) 在 同一 个 企业 里 是 具有 唯一 
| 雇员 2: name = “FÆ”, wid = | 性 的 
“1234567” 
数据 源 | 违反 引用 完整 性 雇员 : name—" 35B]" ,depno—32 编号 为 32 的 部 门 不 存在 
范围 /问题 问题 数据 ( 脏 数据 ) 描 述 
空 值 birth — dd/mm/yy 该 属性 没有 输入 相应 的 值 
拼写 错误 City 一 “伤害 ” 通常 为 数据 录入 时 产生 的 错误 
x 记录 1: company = "Motorola" 企业 同时 存在 中 英文 名 称 ,没有 使 用 
rys e Es 记录 2: company 一 “摩托 罗拉 公司 ”| 统一 的 标准 
多 个 属性 的 值 输入 到 了 一 个 属性 中 
多 值 嵌入 name 一 “ 何 瑛 23.02.77 杭州 (特别 是 自由 文本 的 数据 ) 
属性 值 错位 City 一 “浙江 ” 某 个 属性 的 值 放置 到 另外 一 个 属性 中 
违反 了 属性 之 间 的 Dee 
记录 依赖 关系 City 一 “上 海 ”,zip = 310023 城市 和 邮编 之 间 应 该 是 相关 的 
重复 记录 记录 1: C* 38] " ," Motorola"...) 同一 个 实体 的 信息 被 多 次 以 不 同 的 方 
usu 记录 2:(“ 马 明 ”,“ 摩 托 罗拉 公司 ”...) | 式 输入 
RT 
冲突 记录 记录 1:(* 马 明 ”,“ 中 兴 通 讯 ”...) 现实 世界 的 同一 个 实体 被 不 同 的 值 
记录 2:(“ 马 明 ”,“ 摩 托 罗拉 ”...) 描述 
数据 源 | 引用 错误 ET a AR R 3D 














图 5-2 数据 质量 问题 分 类 
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5.2.2 多 数据 源 的 问题 


对 于 多 数据 源 的 情况 ,需要 对 不 同 数据 源 的 数据 进行 集成 。 每 个 数据 源 往往 由 特定 的 
应 用 程序 创建 ,以 满足 特定 的 用 户 需求 ,每 一 个 数据 源 的 数据 模型 设计 会 存在 很 大 程度 的 差 
异 。 此 外 ,每 一 个 数据 源 中 都 可 能 包含 脏 数据 , 且 不 同 数据 源 对 同一 数据 可 能 存在 不 同 的 表 
示 形 式 ,数据 重复 或 者 数据 冲突 。 因 此 ,在 单一 数据 源 情况 下 存在 的 数据 质量 问题 在 多 数据 
源 情况 下 依然 存在 。 此 外 ,在 多 数据 源 情形 下 ,数据 清洗 将 面临 许多 新 的 问题 ,比如 结构 冲 
突 、 命 名 冲突 ,重复 记录 中 等 。 

多 数据 源 中 数据 模式 层面 的 主要 问题 是 命名 冲突 和 结构 冲突 。 命 名 冲突 是 对 不 同 的 数 
据 对 象 采用 相同 的 名 字 命 名 ,或 者 对 同一 数据 对 象 采用 不 同 的 名 字 命 名 。 结 构 冲 突 存在 很 
多 不 同 的 情况 ,通常 指 采用 不 同 的 方式 表示 不 同 数据 源 中 的 同一 个 数据 对 象 , 比 如 同一 个 对 
象 在 不 同 数据 集中 有 不 同属 性 的 粒度 ,不同 的 组 成 结构 ,不同 的 数据 类 型 .不 同 的 完整 性 约 
RE, 

多 数据 源 中 数据 实例 层面 的 主要 问题 往往 不 能 在 数据 模式 层面 体现 ,数据 实例 层面 的 
冲突 是 指 具体 数据 的 冲突 。 在 单数 据 源 中 存在 的 数据 质量 问题 ,在 不 同 的 数据 源 中 可 能 表 
现 为 不 同 的 形式 ,比如 记录 重复 .记录 冲突 等 问题 。 即 使 不 同 的 数据 源 之 间 具 有 相同 的 属性 
名 字 和 数据 类 型 ,也 仍然 可 能 存在 不 同 的 数据 值 表示 (比如 对 性 别 的 描述 ,可 以 表示 为 ' 男 '、 
' 女 ,也 可 以 表示 为 'M'、FF') 或 者 对 数据 值 的 不 同 解释 (比如 美元 和 欧元 等 不 同 的 货币 衡量 单 
位 )。 此 外 ,不 同 数据 源 提供 的 信息 可 能 聚合 在 不 同 的 层次 ,比如 某 个 数据 源 中 单条 记录 描 
述 的 是 某 个 产品 的 销售 信息 ,而 另 一 个 数据 源 中 的 一 条 记录 描述 的 是 一 组 同类 产品 的 销售 
信息 。 

对 于 多 数据 源 而 言 ,一 个 主要 的 数据 清洗 问题 是 识别 重复 数据 ,这 一 问题 也 被 称 为 对 象 
标识 问题 中 。 通 常 不 同 数据 源 的 信息 之 间 仅 仅 是 部 分 宛 余 的 ,这 些 数 据 源 可 以 通过 提供 对 
同一 个 实体 的 额外 信息 进行 相互 的 补充 。 因 此 ,为 了 取得 对 一 个 实体 的 统一 描述 ,必须 去 除 
重复 的 信息 ,合并 、 整 理 某 一 实体 在 多 个 数据 源 的 信息 。 

图 5-3 中 给 出 的 两 个 数据 源 Client 和 Customer 均 是 关系 表 , 它 们 之 间 存 在 着 多 种 数据 
模式 和 数据 实例 层 的 冲突 。 在 数据 模式 层 ,存在 着 命名 冲突 (不 同 的 名 字 用 于 相同 的 数据 对 
象 ,如 “Client/Customer”,“Cid/Cno”,“Sex/Gender”) 和 结构 冲突 (比如 ,对 地 址 的 表示 粒度 
不 同 )。 在 数据 实例 层 中 ,两 个 数据 源 对 性 别 有 着 不 同 的 表示 (如 “0/1” 和 “F/M”), 并 且 存 
在 重复 记录 (如 “ 马 明 ”)。 通 过 进一步 的 观察 ,还 可 以 发 现 Cid/Cno 都 是 数据 源 特定 的 内 部 
记录 标识 ,它们 的 内 容 在 不 同 的 数据 源 之 间 是 不 可 比较 的 ; 不 同 的 值 (如 “18/495”) 可 能 标 
识 同一 个 客户 ,而 不 同 的 客户 也 可 能 拥有 相同 的 某 个 值 (如 “25”)。 解 决 这 些 问 题 ,同时 需要 
数据 模式 相关 的 和 数据 实例 相关 的 数据 清洗 技术 ,图 5-3 中 的 第 三 张 表 展示 了 一 种 可 行 的 
数据 清洗 方案 得 到 的 结果 。 值 得 注意 的 是 ,在 清洗 过 程 中 ,解决 数据 质量 问题 的 顺序 需要 慎 
重 的 考虑 。 有 些 问 题 只 有 在 其 他 问题 解决 后 才能 有 效 地 解决 ,比如 重复 记录 的 检测 必须 基 
于 对 地 址 和 性 别 的 统一 表示 。 
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Client( 数 据 源 1) 

Cid Name Street City Province Sex 
18 马 明 凤 起 路 162 号 B 座 301 室 杭州 市 浙江 
25 王 丽 武川 路 78 F 513 号 楼 302 室 上 海 市 上 海 0 





Customer( 数 据 源 2) 











Cno Name Address Phone Gender 
495 马 明 杭州 市 凤 起 路 162 号 B 座 301 室 , 邮 310012 0571-86805221 M 
25 何 瑛 杭州 市 西溪 路 180 号 26 号 楼 101 室 , 邮 310023 0571-85221092 F 

















Customers( 经 过 数据 清洗 之 后 的 数据 ) 









































No | Name Street City | Province Zip Phone Gender | Cid | Cno 
1 | 马 明 | 凤 起 路 162 号 B 座 301 室 | 杭州 浙江 | 310012 | 0571-86805221 M 18 | 495 
2 | EW jRJHPE 78 F513 号 楼 302 € | 上 海 | L 200000 F 25 
3 | 何 瑛 | 西溪 路 180 号 26 号 楼 101 室 | 杭州 浙江 | 310023 | 0571-85221092 F 25 





图 5-3 数据 质量 问题 分 类 


5.3 数据 清洗 技术 


5.3.1 重复 记录 清洗 


理想 情况 下 ,对 于 一 个 实体 ,数据 库 中 应 该 有 且 仅 有 一 条 与 之 对 应 的 记录 。 然 而 ,在 现 
实情 况 中 ,数据 可 能 存在 数据 输入 错误 的 问题 ,如 数据 格式 .拼写 上 存在 的 差异 (例如 ， 
Apple 公司 ,apple 公司 . 蔷 果 公司 是 同一 实体 的 多 条 记录 )。 这 些 差异 会 导致 不 能 正确 地 识 
别 出 标识 同一 实体 的 多 条 记录 , 且 对 于 同一 实体 ,在 数据 仓库 中 会 有 多 种 不 同 的 表示 形式 ， 
即 同 一 实体 对 象 可 能 对 应 多 条 记录 。 重 复 记录 会 导致 错误 的 分 析 结 果 , 因 此 有 必要 去 除数 
据 集中 的 重复 记录 ,以 提高 分 析 的 精度 和 速度 。 

在 消除 数据 集 里 面 的 重复 记录 时 ,首要 的 问题 就 是 如 何 判断 两 条 记录 是 否 重复 。 这 需 
要 比较 记录 的 相关 属性 ,根据 每 个 属性 的 相似 度 和 属性 的 权重 ,加 权 平 均 后 得 到 记录 的 相似 
度 。 如 果 两 条 记录 的 相似 度 超 过 了 某 一 国 值 . 则 认为 这 两 条 记录 是 指向 同一 实体 的 记录 , 反 
之 ,认为 是 指向 不 同 实 体 的 两 条 记录 。 检 测 数 据 集 里 面 的 重复 记录 时 ,常用 的 方法 是 基本 近 
邻 排序 算法 ,该 算法 的 基本 思想 是 : 将 数据 集中 的 记录 按 指定 的 关键 字 (Key) 排 序 , 并 在 排 
序 后 的 数据 集 上 移动 一 个 固定 大 小 的 窗口 ,通过 检测 窗口 里 的 记录 ,判定 它们 是 否 匹配 ,以 
此 减少 比较 记录 的 次 数 。 

具体 来 说 ,基本 近邻 排序 算法 的 主要 步骤 包括 以 下 三 步 ""。 

(1) 生成 关键 词 : 通过 抽取 数据 集中 相关 属性 的 值 为 每 个 实例 生成 一 个 关键 词 。 

(2) 数据 排序 : 按 步骤 (1) 生 成 的 关键 字 为 数据 集中 的 数据 排序 。 尽 可 能 地 使 潜在 的 
重复 记录 调整 到 一 个 邻近 的 区 域内 ,从 而 将 进行 记录 匹配 的 对 象限 制 在 一 定 的 范围 之 内 。 

(3) 合并 : 在 已 排序 的 数据 集 上 依次 移动 一 个 固定 大 小 的 窗口 ,数据 集中 每 条 记录 仅 
与 窗口 内 的 记录 进行 比较 。 如 果 窗 口 的 大 小 包含 m 条 记录 , 则 每 条 新 进入 窗口 的 记录 都 要 
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与 先前 进入 窗口 的 m 一 1 条 记录 进行 比较 ,以 检测 重复 记录 。 在 一 个 窗口 中 , 当 最 先进 入 窗 
口 的 记录 滑 出 窗口 后 ,窗口 外 的 第 一 条 记录 移入 窗口 , 且 把 此 条 记录 作为 下 一 轮 的 比较 对 
象 ,直到 数据 集 的 最 后 位 置 ( 如 图 5-4 所 示 )。 











当前 窗口 3 m 





m 直 下 一 个 窗口 

















图 5-4 数据 质量 问题 分 类 


5.3.2 消除 噪声 数据 


噪声 数据 是 一 组 测量 数据 中 由 随机 错误 或 偏差 引起 的 孤立 数据 ,噪声 数据 往往 使 得 数 
据 超出 了 规定 的 数据 域 , 对 后 续 的 数据 分 析 结 果 造 成 不 良 的 影响 。 消 除 噪声 的 主要 数据 处 
理 方法 是 分 箱 方法 。 

分 箱 方法 根据 拟 处 理 数 据 周围 的 数据 值 , 平 滑 需要 处 理 的 数据 。 通 常 来 说 ,需要 处 理 的 
数据 被 分 布 到 一 些 箱 中 ,不 同 的 分 箱 技术 对 这 些 值 进行 不 同 的 平滑 。 现 有 的 主要 分 箱 方法 
都 是 把 数据 划分 到 相同 深度 的 不 同 箱 内 。 具 体 方法 如 下 59 。 

1. 按 箱 平均 值 平 滑 

该 方法 把 箱 中 的 所 有 值 进行 平均 ,然后 使 用 该 箱 中 数据 的 平均 值 蔡 代 箱 中 拟 处 理 的 数据 。 

2. 按 箱 边界 平滑 

该 方法 首先 找 出 箱 中 的 最 大 值 和 最 小 值 ,并 将 最 大 值 或 最 小 值 作为 箱 边界 ,进而 将 该 箱 
中 的 每 一 个 数据 都 由 最 近 的 箱 边 界 值 蔡 换 。 


s.3.3 缺失 值 清 洗 


理想 情况 下 ,数据 集中 的 每 条 记录 都 应 该 是 完整 的 。 然 而 ,在 现实 世界 中 ,存在 大 量 的 
不 完整 数据 。 造 成 缺失 数据 的 原因 有 很 多 ,包括 由 于 人 工 输入 时 的 玻 忽而 漏 掉 , 或 者 在 填写 
调查 问卷 时 ,调查 人 不 愿意 公布 一 些 信息 等 。 在 数据 集中 , 若 某 记 录 的 属性 值 被 标记 为 空 
白 “Unknown” 或 未知” 时, 则 认为 该 记录 存在 缺失 值 ,是 不 完整 的 数据 。 这 些 不 完整 .不 
准确 的 数据 会 影响 数据 分 析 结果 的 准确 性 ,影响 信息 服务 的 质量 。 

当前 有 很 多 针对 缺失 值 清洗 的 方法 ,这些 方法 大 致 可 分 为 两 类 5 : 四 忽略 不 完整 的 数 
据 值 ; 思 填 充 缺 失 数据 值 的 方法 。 第 一 类 方法 操作 较为 容易 ,往往 通过 删除 含有 不 完整 数 
据 的 属性 或 实例 来 去 除 不 完整 数据 ,但 这 种 方法 会 损失 很 多 数据 信息 。 第 二 类 方法 是 采用 
填充 算法 对 不 完整 的 数据 进行 填充 ,大 多 是 通过 分 析 其 他 完整 部 分 的 数据 对 缺失 数据 进行 
填充 。 数 据 清洗 的 具体 方法 如 下 。 

1. 忽略 不 完整 数据 的 方法 


清洗 数据 的 缺失 值 有 很 多 简单 的 方法 ,比如 删除 数据 属性 或 实例 。 删 除 属性 是 把 含有 
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不 完整 数据 的 属性 全 部 删除 ,删除 实例 是 把 含有 不 完整 数据 的 实例 删除 。 删 除 属性 或 实例 
是 常用 的 方法 ,很 多 统计 工具 都 把 该 方法 作为 默认 的 处 理 缺 失 值 的 方法 。 该 方法 具有 效率 
高 .易于 操作 的 特点 ,但 它 的 缺点 也 比较 明显 。 

(1) 该 方法 删除 很 多 数据 信息 。 尤 其 当 数 据 集 本 身 的 样本 量 较 小 时 ,如 果 删 除 一 些 仿 
有 不 完整 数据 的 属性 或 实例 ,那么 会 使 得 该 数据 集 变 得 更 小 ,剩余 的 数据 可 能 不 具有 统计 意 
义 , 故 分 析 结果 也 无 法 让 人 信赖 。 

(2) 该 方法 会 使 数据 集 产生 偏差 。 当 经 过 该 方法 处 理 过 的 数据 用 于 数据 分 析 ( 如 聚 类 
分 析 ) 时 ,会 使 得 分 析 结果 出 现 偏差 。 例 如 ,一 个 数据 本 来 属于 A 类 ,但 由 于 其 同类 的 数据 
样本 被 过 多 删除 ,可 能 会 导致 该 数据 分 到 B 类 。 

2. 基于 填充 技术 的 方法 

通过 忽略 缺失 值 来 清洗 数据 ,很 有 可 能 会 将 潜在 的 有 价值 信息 也 一 并 删除 ,这 比 含有 不 
完整 数据 的 情况 还 要 严重 。 因 此 , 相 比 于 删除 数据 ,更 好 的 方法 是 把 不 完整 的 数据 填充 上 ， 
即 把 缺失 值 用 最 接近 它 的 值 来 蔡 代 ,从 而 提高 可 用 数据 的 数量 。 缺 失 值 填充 算法 在 当前 是 
一 个 研究 热点 ,具体 可 以 分 为 统计 方法 、 分 类 方法 、 神 经 网 络 训练 方法 等 9 。 

基于 统计 的 填充 方法 : 该 方法 通过 分 析 数 据 , 得 出 数据 集 的 统计 信息 ,然后 利用 这 些 信 
息 清洗 缺失 值 。 该 类 方法 中 最 常用 的 方法 是 均值 填充 方法 , 它 把 完整 数据 的 算术 平均 值 作 
为 缺失 数据 的 值 。 然 而 ,均值 填充 法 的 有 效 性 和 整体 数据 的 分 布 相关 。 如 果 数 据 的 分 布 是 
正 态 分 布 , 即 所 有 数据 都 围绕 在 均值 附近 , 则 均值 填充 法 会 比较 有 效 。 反 之 ,如 果 数 据 的 分 
布 是 其 他 分 布 ,均值 附近 的 数据 频次 不 高 , 则 均值 填充 法 不 会 特别 有 效 。 

基于 分 类 的 填充 方法 : 当 人 们 面 对 海 量 数据 时 ,首先 要 对 这 些 数 据 进行 分 类 ,然后 再 对 
每 一 类 数据 集 进行 分 析 , 这 符合 对 复杂 问题 采取 的 “分 而 治之 ”的 策略 。 分 类 的 概念 是 在 已 
有 数据 的 基础 上 构造 出 一 个 分 类 器 ,该 分 类 器 能 够 把 数据 库 中 的 数据 映射 到 给 定 的 某 一 个 
类 别 ,进而 用 该 类 别 的 均值 代 蔡 缺失 数据 。 

基于 神经 网 络 的 数据 填充 方法 : 神经 网 络 需要 很 长 的 训练 时 间 ,需要 确定 大 量 的 网 络 
参数 , 故 适 用 于 有 足够 长 训练 时 间 的 应 用 。 神 经 网 络 的 优点 包括 其 对 噪声 数据 的 高 承受 能 
力 , 以 及 它 对 未 经 训练 的 数据 分 类 模式 的 能 力 。 在 构建 神经 网 络 时 有 几 点 需要 注意 : CD 
确定 输入 层 的 节点 数 ; @ 确 定 输出 层 的 节点 数 ; @@ 必 须 选择 网 络 拓扑 (比如 , 隐 含 层 的 层 数 
或 隐 含 层 的 节点 数 ) 结 构 ; @ 随 机 初始 化 权重 ; @ 训 练 样本 必须 是 完整 数据 , 即 如 果 存 在 缺 
失 值 则 要 去 除 该 实例 。 神 经 网 络 的 特点 如 下 : 第 一 ,神经 网 络 很 难 解释 ,目前 还 无 法 对 神经 
网 络 做 出 显而易见 的 解释 ; 第 二 ,神经 网 络 可 以 处 理 属性 元 余 问题 ,在 网 络 训 练 阶 段 权 值 自 
动 学 习 , 宛 余 属 性 的 权 值 较 小 ; 第 三 ,训练 一 个 神经 网 络 可 能 需要 相当 可 观 的 时 间 才 能 完 
成 ; 第 四 ,建立 神经 网 络 需 要 做 的 数据 准备 工作 量 很 大 。 


5.4 数据 归 约 


当 数 据 集 含 有 大 量 的 数据 属性 时 ,数据 的 实例 数量 也 非常 庞大 ,这 使 得 此 类 分 析 是 不 可 
行 的 。 数 据 归 约 技术 5 可 以 降低 所 需 分 析 数 据 的 数量 , 且 仍 接近 于 保持 原 数据 的 完整 性 。 
因此 ,在 归 约 后 的 数据 集 上 分 析 会 更 有 效 。 数 据 归 约 的 技术 较 多 ,下 面 主要 介绍 维 归 约 、 属 
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性 选择 和 离散 化 技术 。 
5.4.1 维 归 约 


用 于 分 析 的 数据 集 可 能 包含 大 量 的 属性 ,其 中 一 部 分 属性 与 分 析 任 务 并 不 相关 。 保 留 
不 相关 的 数据 属性 会 导致 分 析 算 法 无 所 适 从 ,从 而 导致 分 析 效 果 较 差 。 此 外 ,不 相关 的 属性 
增加 了 数据 宛 余 ,使 得 分 析 进 程 变 得 缓慢 。 

维 归 约 是 通过 减少 数据 集 不 相关 属性 的 方法 ,降低 数据 集 的 维度 ,从 而 提高 数据 分 析 算 
法 的 效率 。 维 归 约 方法 主要 的 思路 是 属性 构造 , 即 通过 合并 已 有 的 属性 来 构造 新 的 属性 ,最 
常用 的 属性 构造 方法 是 根据 领域 专家 的 意见 来 合并 已 有 的 属性 。 


5.4.2 属性 选择 


属性 选择 方法 可 以 减少 数据 集中 的 不 相关 属性 。 不 同 于 维 归 约 中 采用 领域 知识 直接 将 
属性 去 掉 , 属 性 选择 通过 分 析 所 有 可 能 的 属性 子 集 ,从 而 找到 最 佳 的 属性 子 集 。 然 而 ,数据 
集 的 属性 子 集 数量 随 着 数据 集 属 性 个 数 呈现 出 指数 增长 ,此 方法 费时 费力 , 且 实 际 用 途 不 
大 。 常 用 的 属性 选择 策略 有 很 多 ,但 必须 满足 以 下 两 个 条 件 : 计算 代价 小 ; @ 能 找到 
最 佳 或 接近 最 佳 的 属性 子 集 。 当 然 ,在 实际 工程 中 ,选择 策略 往往 是 两 个 条 件 的 折 中 
方案 。 

选 出 属性 子 集 后 ,评价 方法 要 对 其 进行 评价 ,以 确定 该 属性 子 集 对 于 某 个 特定 的 数据 分 
析 任 务 是 否 是 最 佳 的 。 由 于 属性 子 集 的 个 数 较 多 ,无 法 对 子 集 逐 个 进行 测试 ,需要 一 个 标准 
来 决定 什么 情况 下 可 以 停止 选择 。 通 常 来 说 ,选择 的 标准 包含 以 下 策略 : 迭代 次 数 是 否 超 
过 了 某 个 阔 值 ,属性 子 集 的 数据 集 大 小 是 否 低 于 某 个 阔 值 等 。 一 旦 选 出 了 属性 子 集 ,应 该 确 
认 一 下 该 属性 子 集 的 性 能 。 标 准 是 应 用 到 该 属性 子 集 上 的 数据 分 析 结 果 应 该 与 应 用 到 整个 
属性 集 上 的 结果 相同 。 


5.4.3 离散 化 方法 


离散 化 技术 可 以 用 于 数据 转换 。 比 如 ,对 数据 集 使 用 分 类 算法 时 ,需要 把 数据 转换 成 离 
散 的 形式 ; 而 对 于 关联 规则 发 现 算法 , 则 需要 变 为 二 元 变量 的 属性 格式 。 因 此 ,有 时 需要 从 
连续 型 数据 转换 为 离散 型 数据 ,而 有 时 需要 把 连续 型 和 离散 型 的 数据 转换 为 二 元 变量 形式 。 
另外 ,如 果 离 散 数据 的 值 较 大 ,或 某 些 值 出 现 的 频率 较 低 , 则 可 以 通过 合并 这 些 数值 来 达到 
对 离散 数据 归 约 的 目的 。 

离散 化 技术 通常 在 分 类 或 关联 规则 分 析 中 使 用 。 把 连续 型 数据 转换 为 离散 型 数据 一 般 
包含 两 个 子 任务 : 四 判断 需要 多 少 个 离散 型 数据 ; @ 如 何 把 连续 型 数据 映射 到 离散 型 数据 
上 。 在 第 一 步 中 , 先 对 连续 型 数据 进行 排序 ,然后 指定 n— 1 个 点 把 数据 分 为 个 区 间 。 在 
第 二 步 中 ,把 落 在 同一 个 区 间 内 的 所 有 连续 型 数据 都 映射 到 相同 的 离散 型 数据 上 。 因 此 , 离 
散 化 问题 就 变 成 了 如 何 划分 区 间 的 问题 。 

分 箱 方法 也 可 以 用 于 离散 化 。 等 深 的 分 箱 方法 是 把 相同 数量 的 属性 值 放 和 不同 箱 内 ， 
然后 对 每 个 箱 里 的 数据 进行 处 理 。 具 体 来 说 ,是 把 箱 中 的 所 有 数据 取 平 均值 ,然后 把 每 个 属 
性 值 用 平均 值 来 蔡 换 ,从 而 达到 属性 值 离 散 化 的 目的 。 
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5.5 数据 清洗 工具 


专用 的 数据 清洗 工具 往往 应 用 于 特定 的 业务 领域 .特定 的 数据 清洗 阶段 或 者 特定 的 数 
据 质量 问题 。 这 些 工 具 往 往 依靠 某 些 规则 库 来 指导 数据 转换 过 程 ,或 者 通过 与 人 的 交互 来 
完成 数据 转换 过 程 。 

在 业务 领域 ,对 于 许多 企业 来 说 ,各 种 各 样 的 地 址 数据 可 能 成 为 其 业务 的 核心 。 随 时 能 
和 客户 ,供应 商 进行 准确 的 联系 ,对 这 些 企业 来 说 显得 非常 重要 。 高 质量 的 地 址 数据 对 企业 
的 业务 将 给 予 巨大 的 帮助 ,它们 不 仅 能 够 帮助 企业 与 客户 建立 良好 的 关系 ,而 且 可 以 为 企业 
节省 大 量 的 时 间 和 金钱。 因此 , 目前 存在 较 多 的 和 地 址 相关 的 数据 清洗 工具 。 比 如 ， 
IDCentric ( FirstLogic ), Pureintegrate, QuickAddress ( QASSystems ), ReUnion 
(PitneyBowes) , NADIS, .Trillium(TrilliumSoftware) 等 都 是 这 类 工具 。 它 们 提供 的 技术 包 
括 抽 取 地 址 信息 并 将 它们 转换 为 符合 标准 的 形式 ,从 而 验证 城市 ,邮编 .街道 等 各 种 信息 是 
否 正 确 。 这 些 工具 往往 拥有 较 大 的 预定 义 规则 库 ,专门 用 来 处 理 这 类 数据 中 经 常 出 现 的 一 
些 问 题 。 比 如 ,Trillium 的 分 析 和 匹配 模块 包括 超过 200 000 条 业务 规则 ,而 且 能 够 根据 用 
户 的 需求 加 入 新 的 业务 规则 。 

在 数据 质量 问题 中 ,最 典型 的 是 重复 记录 问题 。 因 此 ,标示 或 去 除 重复 记录 的 工具 应 运 
而 生 , 这 些 工 具 包 括 DataCleanser (EDD), Merge/PurgeLibrary (Sagent/QMSoftware)， 
MatchLT(HelpLTSystems) ,MasterMerge(PitneyBowes) 等 。 通 常 这 些 工具 都 要 求 目标 数 
据 源 已 经 过 一 定 的 数据 清洗 ,具备 了 较 好 的 数据 质量 ,不 会 影响 记录 匹配 过 程 ,因此 ,这 些 工 
具 往 往 需 要 其 他 ETL 工具 的 配合 。 大 量 的 商业 化 工具 支持 数据 的 ETL 过 程 (Extraction， 
"Transformation . Loading) ， 比 如 CopyManager, DataStage, Extract, SagentSolutionPlatform, 
WarehouseAdministrator 等 许多 工具 ,这 些 工 具 往 往 利 用 DBMS 来 统一 管理 所 有 的 元 数据 信 
息 ,比如 数据 源 信息 、 目 标 数 据 模式 、 映 射 关 系 、 脚 本 程序 等 。 这 些 ETL 工具 通常 只 有 较 少 
的 内 建 的 数据 清洗 特性 ,但 允许 用 户 通过 其 私有 的 一 些 编程 接口 来 定义 某 些 数据 清洗 特性 。 
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. 数据 预 处 理 的 主要 任务 有 哪些 ? 

. 数据 清洗 技术 按照 解决 问题 的 需求 可 以 分 为 哪 几 类 ? 请 详细 阐述 每 一 类 问题 。 
. 清洗 数据 缺失 值 的 技术 有 哪些 ? 请 比较 各 种 技术 的 优 劣 。 

. 数据 规约 技术 有 哪些 ? 详细 阐述 每 种 技术 的 特点 。 

. 常用 的 数据 清洗 工具 有 哪些 ? 请 分 析 每 一 类 工具 的 应 用 场景 。 








数据 分 析 是 从 海量 数据 中 提取 信息 的 过 程 ,以 机 器 学 习 算 法 为 基础 ,通过 模拟 人 类 的 学 
习 行为 ,获取 新 的 知识 或 技能 ,不 断 改善 分 析 的 过 程 。 机 器 学 习 从 很 多 学 科 中 吸收 了 重要 的 
成 果 , 包 括 统计 学 、 人 工 智 能 \ 信 息 论 、 认 知 科学 、 计 算 复杂 性 和 控制 等 ,每 个 学 科 中 机 器 学 习 
的 具体 算法 也 纷繁 复杂 。 本 章 的 内 容 并 不 追求 涵盖 每 一 种 具体 的 机 器 学 习 算法 ,而 是 介绍 
一 些 常 用 的 算法 。 

本 书 参考 数据 领域 的 十 大 经 典 算法 ,它们 是 国际 权威 的 学 术 组 织 IEEE 于 2006 年 
12 月 在 中 国 香港 召开 的 IEEE International Conference on Data Mining (CDM) & N P Ë 
选 出 的 算法 ,包括 C4. 5 算法、k- 均 值 算法 、 支 持 向 量 机 、Apriori 算法 `EM 算法 .PageRank 算 
法 ,AdaBoost 算法 .上 -临近 算法 .朴素 贝 叶 斯 算法 和 回归 树 算法 上 。 这 十 大 算法 中 的 任何 一 种 
都 可 以 称 得 上 是 机 器 学 习 领 域 的 经 典 算法 ,它们 在 数据 分 析 领 域 都 产生 了 极为 深远 的 影响 。 


6:1 64.5 A 


C4. 5 是 机 器 学 习 中 常用 的 一 种 分 类 算法 。 算 法 的 目标 是 通过 学 习 , 找 到 一 个 从 实体 属 
性 值 到 类 别 的 映射 关系 ,并 且 这 个 映射 能 用 于 对 新 的 未 知 实体 进行 分 类 中 。 

C4.5 f J. Ross Quinlan 在 ID3 的 基础 上 提出 ,ID3 算法 是 用 来 构造 决策 树 的 常用 算 
法 。 决 策 树 是 一 种 类 似 流程 图 的 树 结构 ,其 中 每 个 内 部 节点 ( 非 树叶 节点 ) 表 示 在 一 个 属性 
上 的 测试 ,每 个 分 枝 代表 一 个 测试 输出 ,而 每 个 树叶 节点 存放 一 个 类 标号 。 一 旦 建立 好 了 决 
策 树 ,对 于 一 个 未 给 定 类 标号 的 实体 ,决策 树 会 选择 一 条 从 根 节 点 到 叶 节 点 的 路 径 ,该 实体 
的 预测 结果 就 存放 在 该 叶 节 点 中 。 决 策 树 的 优势 在 于 不 需要 任何 领域 的 知识 或 参数 设置 ， 
适合 于 探测 性 的 知识 发 现 。 图 6-1 就 是 一 个 典型 的 决策 树 。 数 据 集 如 图 6-2 所 示 , 它 表示 
的 是 天 气 情况 与 是 否 去 打 高 尔 夫 球 之 间 的 关系 。 
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图 6-1 决策 树 示 意图 








Day Outlook Temperature Humidity Windy Play Golf? 
1 Sunny 85 85 False No 
2 Sunny 80 90 True No 
3 Overcast 83 78 False Yes 
4 Rainy 70 96 False Yes 
5 Rainy 68 80 False Yes 
6 Rainy 65 70 True No 
7 Overcast 64 65 True Yes 
8 Sunny 72 95 False No 
9 Sunny 69 70 False Yes 

10 Rainy 75 80 False Yes 
11 Sunny 75 70 True Yes 
12 Overcast 72 90 True Yes 
13 Overcast 81 75 False Yes 
14 Rainy 71 80 True No 





图 6-2 决策 树 案例 数据 
6.1.1 算法 描述 


C4.5 并 不 是 一 个 单一 的 算法 ,而 是 一 组 算法 的 总 称 。 图 6-3 给 出 了 C4. 5 算法 的 基本 
工作 流程 。 

读者 可 能 有 疑问 ,一 个 实体 本 身 有 很 多 属性 ,怎么 知道 首先 要 对 哪个 属性 进行 判断 , 接 
下 来 要 对 哪个 属性 进行 判断 ? 换 句 话说 ,在 图 6-1 中 ,怎么 知道 第 一 个 要 测试 的 属性 是 
Outlook, 而 不 是 Windy? 其 实 , 能 回答 这 些 问 题 的 一 个 概念 就 是 属性 选择 度量 。 


6.1.2 属性 选择 度量 


属性 选择 度量 又 称 分 裂 规 则 ,因为 它们 决定 给 定 节点 上 的 实体 属性 如 何 分 裂 。 属 性 
选择 度量 提供 了 每 个 属性 描述 给 定 训练 实体 数据 的 秩 评定 ,具有 最 好 度量 得 分 的 属性 被 
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Algorithm 1.1C4.5(D) 
Input: an attribute-valued dataset D 
1: Tree - () 
: if D is "pure" OR other stopping criteria met then 





2: 
3: terminate 

4: endif 

5: for all attribute a € D do 

6: Compute information-theoretic criteria if we split on a 
7: end for 

8: dpest = Best attribute according to above computed criteria 
9: Tree = Create a decision node that tests pess in the root 

10: D, = Induced sub-datasets from D based on pest 

11: for all D, do 

12: Tree, = C4A.5(D,) 

13: Attach Tree, to the corresponding branch of Tree 

14: end for 

15: return Tree 


图 6-3 决策 树 算法 过 程 


选 作 给 定 元 组 的 分 裂 属 性 。 目 前 比较 流行 的 属性 选择 度量 包括 信息 增益 .增益 率 和 Gini 
指标 。 

假设 DD 是 类 标记 实体 训练 集 ,类 标号 属性 具有 m 个 不 同 的 值 ,m 个 不 同类 C;(Gi 一 1， 
2,…,m) ,CD 是 DD 中 C; 类 的 实体 集合 ,1D|I 和 |CD| 分 别 是 D 和 CiD 中 的 实体 个 数 。 

1. 信息 增益 

信息 增益 是 ID3 算法 中 用 来 进行 属性 选择 的 度量 指标 。 通 常 来 说 , 它 选择 具有 最 高 信 
息 增益 的 属性 来 作为 节点 N 的 分 裂 属 性 ,该 属性 使 结果 划分 中 的 元 组 分 类 所 需 信 息 量 最 
小 。 对 DD 中 的 元 组 分 类 所 需 的 期 望 信息 为 : 


Info(D) —— J) p; log; (p (6-1) 
i=l 


InfoCD) fj Jj fli . 
现 假定 按照 属性 A 划分 D 中 的 元 组 , 且 属 性 A 将 D XI o 个 不 同 的 类 。 在 该 划分 

之 后 ,为 了 得 到 准确 的 分 类 还 需要 的 信息 由 下 面 的 公式 度量 : 

| D; 





Infoa (D) = 22 TD : X InfoC D;) (6-2) 
信息 增益 定义 为 原来 的 信息 需求 ( 即 对 A 划分 之 前 得 到 的 ) 与 新 需求 ( 即 对 A 划分 之 后 

得 到 的 ) 之 间 的 差 , 即 
GainCA) = InfoCD) — Infoa (D) (6-3) 


一 般 说 来 ,对 于 具有 多 个 属性 的 实体 ,用 一 个 属性 就 将 它们 完全 分 开 是 几乎 不 可 能 的 。 
一 旦 选择 一 个 属性 A ,假设 将 元 组 分 成 了 两 个 部 分 A 和 A ,由 于 A 和 A 还 可 以 用 其 他 
属性 接着 再 分 ,所 以 又 引出 一 个 新 的 问题 : 接 下 来 要 选择 哪个 属性 来 分 类 ? 对 D 中 元 组 分 
类 所 需 的 期 望 信息 是 InfoCDO ,那么 同 理 , 当 我 们 通过 A ED 划分 成 wv 个子 集 D;(j 二 1， 
2,…,v) 之 后 ,要 对 D; 的 实体 进行 分 类 , 故 重复 上 面 的 过 程 , 即 可 对 子 集 D; 进行 分 类 , 直 
至 每 个 实体 都 被 归 入 某 一 分 类 或 满足 某 一 终止 条 件 。 

使 用 信息 增益 有 一 个 缺点 , 那 就 是 它 偏向 于 具有 和 较 多 取 值 个 数 的 属性 , 即 某 个 属性 所 取 
的 不 同 值 的 个 数 越 多 ,那么 越 有 可 能 拿 它 来 作为 分 裂 属性 。 例 如 ,一 个 训练 集中 有 10 个 实 
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体 , 对 于 某 一 个 属性 A, 它 分 别 取 1 一 10 这 10 个 数 。 如 果 对 A 进行 分 裂 将 会 分 成 10 个 类 ， 
那么 对 于 每 一 个 类 Info(Di ) 王 0, 从 而 式 (6-2) 为 0。 该 属性 划分 所 得 到 的 信息 增益 最 大 ,但 
是 很 显然 ,这 种 划分 没有 意义 。 

2. 信息 增益 率 

基于 信息 增益 作为 属性 选择 度量 的 刺 端 ,C4. 5 采用 了 信息 增益 率 这 样 一 个 概念 。 信 息 
增益 率 使 用 “分 裂 信 息 ” 值 将 信息 增益 规范 化 ,分 类 信息 类 似 于 Info(D), 定 义 如 下 : 

SplitInfoa (D) m I^ : x tog, (| P ) (6-4) 

这 个 值 表示 通过 将 训练 数据 集 D 划分 成 对 应 于 属性 A 测试 的 vw 个 输出 的 wv 个 划分 产 

生 的 信息 。 信 息 增 益 率 定义 : 








GainRatio(A) = D (6-5) 
此 属性 选择 度量 将 具有 最 大 增益 率 的 属性 作为 分 裂 属性 。 


3. Gini 指标 
Gini 指标 在 CART 分 类 算法 中 使 用 。Gini 指标 度量 定义 为 训练 实体 数据 集 D 的 不 纯 
度 , 即 


Gini(D) — 1— $1 (6-6) 
i-1 


6.1.3 其 他 特征 


在 创建 决策 树 时 ,由 于 数据 中 的 噪声 点 较 多 ,许多 分 枝 反映 的 是 训练 数据 中 的 异常 点 ， 
而 剪 枝 方法 是 用 来 去 除 异常 数据 的 常用 方法 。 通 常 剪 枝 方法 都 使 用 统计 度量 , 剪 去 最 不 可 
靠 的 分 枝 。 一 般 来 说 , 剪 枝 主要 分 为 两 种 方法 : 先 剪 枝 和 后 剪 枝 。 

先 剪 枝 方法 通过 提前 停止 树 的 构造 (比如 决定 在 某 个 节点 不 再 分 裂 或 划分 训练 元 组 的 
子 集 ) 而 对 树 剪 枝 。 一 旦 停止 ,这 个 节点 就 变 成 树叶 ,该 树叶 取 它 持 有 的 子 集 最 频繁 的 类 作 
为 自己 的 类 。 先 剪 枝 有 很 多 方法 ,最 常用 的 方法 包括 : 四 当 决 策 树 达 到 一 定 的 高 度 就 停止 
决策 树 的 生长 ; 四 到 达 某 节点 的 实体 个 数 小 于 某 个 阔 值 的 时 候 也 可 以 停止 树 的 生长 ; OE 
算 每 次 扩展 对 系统 性 能 的 增益 ,如 果 小 于 某 个 阔 值 就 可 以 让 它 停止 生长 。 先 剪 枝 有 个 缺点 : 
在 相同 的 标准 下 ,也 许 当前 扩展 不 能 满足 要 求 , 但 更 进一步 扩展 又 能 满足 要 求 , 这 样 会 过 早 
停止 决策 树 的 生长 。 

另 一 种 更 常用 的 方法 是 后 剪 枝 , 它 由 完全 成 长 的 树 剪 去 子 树 而 形成 ,通过 删除 节点 的 分 
枝 并 用 树叶 来 蔡 换 它 ,而 树叶 一 般 用 子 树 中 最 频繁 的 类 别 来 标记 。C4. 5 采用 后 剪 枝 中 的 翡 
观 剪 枝 法 , 它 使 用 训练 集 生成 决策 树 ,又 用 它 来 进行 剪 枝 , 故 不 需要 独立 的 剪 枝 集 。 翡 观 剪 
枝 法 的 基本 思路 是 : 先 计 算 规 则 在 它 应 用 的 训练 实体 集 上 的 精度 ,然后 假定 此 估计 精度 为 
二 项 式 分 布 , 并 计算 它 的 标准 差 。 对 于 给 定 的 置信 区 间 , 采 用 下 界 估计 作为 规则 性 能 的 度 
量 。 这 样 做 的 结果 是 对 于 大 的 数据 集合 ,该 剪 枝 策略 能 够 非常 接近 观察 精度 ; 随 着 数据 集 
合 的 减 小 , 离 观察 精度 越 来 越 远 。 该 剪 枝 方法 尽管 不 是 统计 有 效 的 ,但 是 在 实践 中 却 非 常 
有 效 。 
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6.2 -均值 算法 


k- 均 值 法 是 一 种 广泛 使 用 的 聚 类 方法 。 它 将 盖 个 实体 分 成 & 个 簇 ,保证 徐 内 的 相似 度 
尽 可 能 高 , 且 簇 间 的 相似 度 尽 可 能 低 。 
k- 均 值 法 基于 误差 平方 和 准则 ,随机 选择 & 个 实体 ,每 个 实体 代表 一 个 簇 的 初始 均值 。 
对 于 簇 中 的 每 个 实体 ,根据 它 与 各 个 簇 的 均值 的 距离 ,将 该 实体 指派 到 最 相似 的 簇 中 ( 即 与 
得 中 心 的 距离 最 小 ) ,并 计算 每 个 簇 的 新 的 均值 。 此 过 程 不 断 重复 ,直至 准则 函数 收敛 ( 即 簇 
分 类 不 变 )。 误 差 平方 和 的 定义 如 下 中 
z- oal (6-7) 


i-1p€C, 


其 中 ,E 是 数据 集中 所 有 实体 的 平方 误差 和 ; p 是 空间 中 的 点 ,表示 给 定 的 一 个 实体 ; m 表 
ik C, 的 均值 。 已 所 代表 的 就 是 所 有 实体 到 其 所 在 聚 类 中 心 的 距离 之 和 。 对 于 不 同 的 聚 
类 方式 ,FE 的 大 小 通常 是 不 一 样 的 。 因 此 ,使 下 最 小 的 聚 类 是 误差 平方 和 准则 下 的 最 优 


结果 。 

在 k- 均 值 法 中 ,一 个 关键 的 问题 是 如 何 选取 初始 的 实体 代表 点 。 一 般 来 说 ,选取 实体 
代表 点 通常 采用 如 下 几 个 方法 。 

(1) 凭借 经 验 : 根据 问题 的 性 质 ,用 经 验 确定 类 别 个 数 k, 并 从 直观 上 找到 合适 的 实体 
代表 点 。 


(2) 密度 选择 法 : 首先 以 每 个 实体 样本 为 球 心 ,用 某 个 正 数 a 为 半径 画 圆 ,圆圈 中 的 样 
本 数 则 成 为 球 心 样本 点 的 密度 ,进而 找 出 密度 最 大 的 样本 点 作为 第 一 类 的 实体 代表 点 。 此 
后 ,规定 某 个 正 数 5, 在 第 一 类 实体 代表 点 范围 b 之 外 ,选择 密度 次 大 的 代表 点 作为 第 二 类 
实体 代表 点 。 其 余 各 类 的 实体 代表 点 按照 这 个 原则 依次 进行 。 

(3) 递 推 式 聚 类 划分 : 采用 k-1 聚 类 划分 问题 产生 A 聚 类 划分 问题 的 实体 代表 点 方法 。 
思路 是 先 把 所 有 实体 看 成 一 个 聚 类 ,其 实体 代表 点 为 所 有 实体 样本 的 均值 ,然后 将 一 聚 类 问 
题 划分 的 总 均值 和 离 它 最 远 的 代表 点 作为 确定 两 聚 类 问题 的 实体 代表 点 。 以 此 类 推 , 可 得 
H) k RKU. 


6.3 支持 向 量 机 


支持 向 量 机 (Support Vector Machine, SVM) 是 一 种 具有 深厚 数学 原理 支持 的 分 类 算 
法 ,其 基本 概念 如 图 6-4 所 示 。 将 实体 的 每 一 个 属性 看 作 一 个 维度 ,n 个 属性 就 组 成 个 维 
度 的 空间 。 图 6-4 中 n= 二 2。 在 这 个 nn 维 空间 中 ,如 果 能 够 找到 一 个 线性 分 割 平面 ,将 观测 
分 离开 来 , 称 为 样本 线性 可 分 。 我 们 先 讨 论 线性 可 分 的 情况 ,然后 再 讨论 如 何 处 理 线性 不 可 
分 的 情况 中。 

对 于 一 个 分 割 平面 ,我 们 定义 任意 实体 在 n 维 空间 中 的 点 与 平面 的 最 小 距离 为 间隔 。 
一 个 好 的 分 割 平面 ,应 该 使 间隔 越 大 越 好 。 图 6-4 中 ,右边 的 分 割 平面 就 比 左 边 的 好 。 

分 割 平面 右上 方 的 实体 点 定义 为 正 例 , 将 其 标示 为 十 1; 分 割 平面 左下 方 的 实体 点 定义 
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图 6-4 支持 向 量 机 原理 示意 图 
为 负 例 ,将 其 标示 为 一 1。 落 在 图 中 虚线 上 的 实体 点 称 为 支持 向 量 。 根 据 支持 向 量 满足 的 方 


程 ( 即 图 中 的 红色 虚线 所 示 的 方程 ) ,可 以 获得 分 割 平面 的 表达 式 ( 即 图 6-5 中 的 实 线 所 示 的 
方程 ) ,进而 获得 间隔 的 表达 式 ( 即 图 中 右 下 角 的 表达 式 )。 


Small Margin 





BI 











o 
\ o 
T o 
A K o 
ex b0 A Ne o 
WX b-l m" DS — 
v v o W- x+ b= 
DN 
u N 一 
m i N 
m b3 bu 
" " . 
1 W.X-b21 Ka 2 
- x+b> Margin- —— 
人 -|- e 区 


图 6-5 支持 向 量 机 算法 示意 图 


SVM 分 类 问题 通常 可 以 转化 为 二 次 规划 问题 ,该 问题 的 最 优 解 需要 满足 K-T 条 件 ( 库 
恩 - 塔 克 条 件 ) 。K-T 条 件 的 内 容 大 致 如 下 : 目标 函数 中 关于 w 和 4 的 梯度 可 表示 为 支持 向 
量 约束 梯度 的 线性 组 合 。 通 过 K-T 条 件 , 可 以 将 w 用 向 量 的 内 积 表 示 , 即 将 新 观测 实体 和 
训练 实体 中 的 支持 向 量 做 内 积 即 可 。 

对 于 线性 不 可 分 情况 ,通常 是 把 原来 的 低 维 空间 向 高 维 空间 映射 ,使 得 数据 在 高 维 空间 
中 变 为 线性 可 分 。 然 而 ,这 种 向 高 维 映射 的 方法 不 能 保证 绝对 成 功 , 因 此 人 们 引入 了 软 间 隔 
的 概念 , 即 允 许 在 间隔 内 部 出 现实 体 点 ,但 在 目标 函数 中 加 入 惩罚 函数 , 离 群 点 越 多 且 程 度 
越 高 ,惩罚 越 厉害 。 


6.4 Apriori 算法 


A priori 算法 是 一 种 挖掘 关联 规则 的 频繁 项 集 算法 ,最 早 由 Agrawal 等 设计 提出 ,其 广 
泛 应 用 于 消费 市 场 价格 分 析 、 预 测 顾客 的 消费 习惯 \ 设 计 网 络 安全 领域 中 的 入 侵 检 测 技 
RAU, 

Apriori 算法 采用 两 阶段 挖掘 的 思想 ,并 且 基 于 多 次 扫描 事务 数据 库 来 执行 。Apriori 
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算法 的 设计 可 以 分 解 为 以 下 两 个 步骤 来 执行 挖掘 。 

第 一 步 : 从 事务 数据 库 (D) 中 挖掘 出 所 有 的 频繁 项 集 。 

支持 度 大 于 最 小 支持 度 minSup 的 项 集 (Itemset) 称 为 频 集 (Frequent Itemset)。 首 先 
需要 挖掘 出 频繁 1- 项 集 ; 然后 ,继续 采用 递 推 的 方式 来 挖掘 频繁 天 项 集 (4 之 1), 具 体 做 法 
是 : 在 挖掘 出 候选 频繁 上 项 集 (Ce) 之 后 ,根据 最 小 置信 度 minSup 来 筛选 ,得 到 频繁 上 项 
集 。 最 后 合并 全 部 的 频繁 有 项 集 (4 二 0)。 挖 掘 频繁 项 集 的 算法 描述 如 下 。 


(1) L1 = find frequent 1- itemsets(D); // 挖 掘 频繁 1 - 项 集 , 比 较 容 易 
(2) for (k=2;Lk-1 天 下;k++) ( 

(3) Ck = apriori gen(Lk-1 ,min_sup);// 生 成 候选 频繁 kx- 项 集 

(4) for each transaction t € D( // 扫 描 事 务 数据 库 D 

(5) Ct = subset(Ck,t); 

(6) for each candidate c € Ct 

(7) c. count++ ; // 统 计 候 选 频繁 k- 项 集 的 计数 
(8) ) 

(9) Ik = {c € Ck|c.countzmin sup)  //4& Hii SK k- 项 集 

(10) } 

(11) return L= U k Ik; // 合 并 频繁 k- 项 集 (k>0) 


第 二 步 : 基于 第 一 步 挖掘 到 的 频繁 项 集 ,继续 挖掘 出 全 部 的 频繁 关联 规则 。 

置信 度 大 于 给 定 最 小 置信 和 度 minConf 的 关联 规则 称 为 频繁 关联 规则 (Frequent 
Association Rule) 。 在 这 一 步 ,首先 需要 从 频繁 项 集 入 手 , 首 先 挖 掘 出 全 部 的 关联 规则 (或 
者 称 候选 关联 规则 ) ,然后 根据 minConf 来 得 到 频繁 关联 规则 。 


6.5 EM 算法 


在 统计 计算 中 ,最 大 期 望 (EM) 算 法 是 在 概率 模型 中 寻找 参数 最 大 似 然 估 计 或 者 最 大 
后 验 估 计 的 算法 ,其 经 常用 在 机 器 学 习 和 计算 机 视觉 的 数据 聚 类 领域 中 。 

EM 算法 的 原理 可 以 用 一 个 比较 形象 的 比喻 讲 清楚 : 食堂 的 师傅 炒 了 一 份 菜 ,要 等 分 
成 两 份 给 两 个 人 吃 。 最 简单 的 办 法 是 先 随意 地 把 菜 分 到 两 个 碗 中 ,然后 观察 是 否 一 样 多 ,把 
比较 多 的 那 一 份 取出 一 点 放 到 另 一 个 碗 中 ,这 个 过 程 一 直 和 迭代 地 执行 下 去 ,直到 大 家 看 不 出 
两 个 碗 所 容纳 的 菜 有 什么 分 量 上 的 不 同 为 止 。 

EM 算法 中 ,要 估计 A MB 两 个 相关 的 未 知 参数 。 在 开始 状态 下 ,二 者 都 是 未 知 的 ,但 
如 果 知 道 了 A 的 信息 就 可 以 得 到 B 的 信息 , 反 过 来 如 果 知道 了 B 也 就 得 到 了 A 。 因 此 ,EM 
算法 首先 随机 赋予 A 某 种 初 值 ,以 此 得 到 B 的 估计 值 ,然后 从 B 的 当前 值 出 发 ,重新 估计 A 
的 取 值 ,这 个 过 程 一 直 持 续 到 收 全 为止。 下面 以 估计 个 高 斯 分 布 的 均值 为 例 , 介 绍 EM 算 
法 的 计算 过 程 。 


6.5.1 案例 : 估计 大 个 高 斯 分 布 的 均值 


考虑 D 是 一 个 实体 数据 集合 , 它 由 & 个 不 同 正 态 分 布 的 混合 分 布 所 生成 。 图 6-6 中 显 
mk 二 2 的 情况 。 其 中 , 沿 着 z 轴 显 示 的 点 表示 实体 数据 。 
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每 个 实体 数据 的 生成 过 程 包括 两 个 步骤 。 首 先 , 随 机 选择 4 个 正 态 分 布 中 的 一 个 , 按 此 
分 布 生成 随机 变量 x;。 不 断 重复 上 述 过 程 ,生成 图 中 所 示 的 一 组 数据 点 。 为 简化 讨论 ,我 
们 考虑 如 下 一 个 情形 : 基于 统一 的 概率 对 单个 正 态 分 布 进行 选择 ,并 且 上 个 正 态 分 布 具有 
相同 的 方差 0? 。 

学 习 任 务 是 输出 一 个 假设 h 二 < ya… ju>, 它 描述 了 k 个 分 布 中 每 一 个 分 布 的 均值 。 我 
们 和 希望 对 这 些 均值 找到 一 个 极 大 似 然 假设 , 即 一 个 使 PCD | h) 最 大 化 的 假设 h。 





N, j 


px) 





n eiee + 1 


图 6-6 高 斯 分 布 的 均值 估计 


注意 到 , 当 给 定 从 一 个 正 态 分 布 中 抽取 的 数据 实体 zi ,zz ,…',zw 时 ,很 容易 计算 该 分 
布 的 均值 的 极 大 似 然 假设 。 可 以 证 明 , 极 大 似 然 假设 是 使 到 个 训练 实例 上 的 误差 平方 和 最 
小 化 的 假设 。 进 而 ,可 以 得 到 对 均值 的 估计 为 : 


HE aAA (6-8) 


在 这 里 ,我 们 的 问题 涉及 A 个 不 同 正 态 分 布 的 混合 , 故 无 法 知道 哪个 实例 是 哪个 分 布 产 
生 的 。 因 此 ,这 是 一 个 涉及 隐藏 变量 的 典型 例子 。 


6.5.2 EM 算法 步 又 


在 上 述 案 例 中 ,我 们 进一步 简化 为 所 有 的 样本 只 由 两 种 不 同 的 正 态 分 布 产 生 , 且 两 种 正 
态 分 布 只 是 均值 不 同 。 从 而 ,每 个 实例 的 完整 描述 看 作 是 三 元 组 < x; ,x av,zxz>* 其 中 ,zi 是 
第 ; 个 实体 的 观测 值 ,za 和 zw 是 二 元 变量 ,它们 表示 正 态 分 布 中 哪个 具体 的 分 布 被 用 于 产 
生 z; 的 值 。 

确切 地 讲 , 当 xz; 由 第 j 个 正 态 分 布 产 生 时 ,zx; 的 值 为 1, 和 否则 区 的 值 为 0。 这 里 r 是 实 
体 的 描述 中 已 观察 到 的 变量 ,za 和 xz 是 隐藏 变量 。 如 果 za 和 xz 的 值 可 知 ,就 可 以 计算 均值 
m 和 jy。。 因 为 它们 未 知 ,因此 只 能 用 EM 算法 。 

EM 算法 应 用 于 上 均值 问题 ,目的 是 搜索 一 个 极 大 似 然 假设 .方法 是 根据 当前 假设 
< ja*…pu> 不 断 地 估计 隐藏 变量 ;的 期 望 值 。 然 后 用 这 些 隐藏 变量 的 期 望 值 重新 计算 极 大 
似 然 假设 。 

为 了 估计 图 6-6 中 的 两 个 均值 ,EM 算法 首先 将 假设 初始 化 为 h =< jpn, p DEP utn 
和 wm 为 任意 的 初始 值 。 然 后 重复 以 下 的 两 个 步骤 以 重新 估计 有 ,直到 该 过 程 收敛 到 一 个 稳 
EH h f 

步骤 1 : 计算 每 个 隐藏 变量 x; 的 期 望 值 E[z; ], 假 定 当前 假设 h =< pa， pe > 成 立 。 

步骤 2 : 计算 一 个 新 的 极 大 似 然 假设 — p. >, 假 定 由 每 个 隐藏 变量 <; 所 取 的 值 为 
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第 1 步 中 得 到 的 期 望 值 E Ce ], 然 后 将 假设 h =< 和， RA BUE =< uis pim ER 
后 循环 。 
现在 考察 步骤 1 是 如 何 实现 的 。 步 又 1 要 计算 每 个 x; 的 期 望 值 。 此 E Cey ] 正 是 实体 
zi 由 第 j 个 正 态 分 布 生成 的 概率 : 
IA ERE SCALE TLLKTM RUNE (6-9) 
D pa = 1; | y = pa) Dea 


因此 第 一 步 可 由 将 当前 值 < 入 ,jw > 和 已 知 的 二 代入 到 式 (6-9) 中 实现 。 在 第 二 步 ,使 用 
第 一 步 中 得 到 的 E Cey ] 来 导出 新 的 极 大 似 然 假 设 I =< p e 以 >, 这 时 的 极 大 似 然 假设 为 ; 








u -= (6-10) 
2 ELZ, ] 
注意 ,此 表达 式 类 似 于 式 (6-8) 中 的 样本 均值 , 它 用 于 从 单个 正 态 分 布 中 估计 w。 新 的 
表达 式 只 是 对 p, 的 加 权 样 本 均值 ,每 个 实例 的 权重 为 其 由 第 j 个 正 态 分 布 产生 的 期 望 值 。 
上 面 估 计 个 正 态 分 布 均值 的 算法 描述 了 EM 方法 的 要 点 : 即 当前 的 假设 用 于 估计 未 知 变 
量 , 而 这 些 变 量 的 期 望 值 再 被 用 于 改进 假设 。 


6.6 PageRank 算法 


常言 道 ,看 一 个 人 怎样 ,看 他 有 什么 朋友 就 知道 了 。 也 就 是 说 ,一 个 有 着 越 多 优秀 朋友 
的 人 ,他 优秀 的 概率 就 越 大 。 将 这 个 知识 迁移 到 网 页 上 就 是 “被 越 多 优质 的 网 页 所 指 的 网 
页 , 它 是 优质 的 网 页 的 概率 就 越 大 ”5 。 


6.6.1 PageRank 的 核心 思想 


PageRank 的 核心 思想 就 是 上 述 简单 却 有 效 的 观点 。 由 这 个 思想 可 以 得 到 一 个 直观 的 
公式 : 
RG = J RO) (6-1) 


R(Cz) 表 示 x H PageRank, Bo) zi Br d I8] x HS SEO. 

公式 (6-11) 的 意思 是 一 个 网 页 的 重要 性 等 于 指向 它 的 所 有 网 页 的 重要 性 相 加 之 和 。 
粗 看 之 下 ,公式 (6-11) 将 核心 思想 准确 地 表达 出 来 了 。 但 仔细 观察 就 会 发 现 ,公式 (6-11) 
有 一 个 缺陷 : EE j 有 和 多少 个 超 链接 ,只 要 j 指向 i,i 都 将 得 到 与 j 一 样 的 重要 性 。 当 j 有 
多 个 超 链接 时 ,这 个 思想 就 会 造成 不 合理 的 情况 。 例 如 ,一 个 新 开 的 网 站 N 只 有 两 个 指向 
它 的 超 链 接 , 一 个 来 自 著名 并 且 历 史 悠 久 的 门户 网 站 下 , 男 一 个 来 自 不 为 人 知 的 网 站 U。 根 
据 公式 (6-11) ,就 会 得 到 N 比 下 更 优质 的 结论 。 这 个 结论 显然 不 符合 人 们 的 常识 。 

弥补 这 个 缺陷 的 一 个 简单 方法 是 当 ) 有 多 个 超 链接 (假设 个 数 为 ND ,每 个 链接 得 到 的 
重要 性 为 R(j)/N。 于 是 公式 (6-11) 就 变 成 : 


RG) 
Ri) = TECUM (6-12) 
p NG) 
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N() 表 示 j 页 面 的 超 链接 数 。 

从 图 6-7 可 以 看 出 ,如 果 要 得 到 N 比 下 更 优质 的 结论 ,就 要 求 N 得 到 很 多 重要 网 站 的 
超 链 接 或 者 海量 不 知名 网 站 的 超 链接 ,而 这 是 可 接受 的 。 因 此 可 以 认为 公式 (6-12) 将 核心 
思想 准确 地 表达 出 来 了 。 为 了 得 到 标准 化 的 计算 结果 ,在 公式 (6-12) 的 基础 上 增加 一 个 常 
数 C, 得 到 公式 (6-13) : 





E . RG) 
RG) =C > ESUESS (6-13) 
jéso NO) 





























EJ 3 m 
DEI 下 | 





图 6-7 PageRank 过 程 示意 图 


6.6.2 PageRank 的 计算 过 程 


由 公式 (6-13) 可 知 ,PageRank 是 递归 定义 的 。 要 得 到 一 个 页 面 的 PageRank, 就 要 先知 
道 另 一 些 页 面 的 PageRank, 故 需要 设置 PageRank 的 初始 值 。 一 种 优秀 的 计算 方法 ,可 以 
使 得 无 论 怎 样 设置 初始 值 ,最 后 都 会 收敛 到 同一 个 结果 。 要 做 到 这 点 ,就 要 从 线性 代数 的 角 
度 来 看 这 个 问题 。 

我 们 将 页 面 看 作 节 点 , 超 链接 看 作 有 向 边 , 整 个 互联 网 就 变 成 一 个 有 向 图 了 。 此 时 ,用 
邻接 矩阵 M 表示 整个 互联 网 , 若 第 i 个 页 面 有 存在 到 第 j 个 页 面 的 超 链接 ,那么 矩阵 元 素 
7 车 [ 门 王 1 否则 mx[ 站 [7] 二 0。 对 于 图 6-8 有 





矩形 M={ 0, 1, 1, 0, 
0.0.0. 1, 
1.0.0.0. 
1551500510] 

ID-1 ID=2 











图 6-8 PageRank 网 络 和 矩阵 示意 图 
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观察 矩阵 M 可 发 现 ,M 的 第 工行 表示 第 工 个 网 页 指向 的 网 页 ,M 的 第 J 列表 示 指 向 了 
的 网 页 。 如 果 将 M 的 每 个 元 素 都 除 以 所 在 行 的 全 部 元 素 之 和 ,然后 再 将 M 转 置 (交换 行 和 
列 ) ,得 到 MT, M 的 每 一 行 的 全 部 元 素 之 和 不 就 正好 是 公式 (6-13) 中 的 NG(j) 吗 ? 例如 ， 
图 6-8 可 以 得 到 这 样 的 矩阵 ， 
MT7T—( 0, 0, 1, 1/3, 
1/25:0:05 1/35 
1/2 0-02 01/35 
0591510540) 
将 RR 看 作 是 一 个 N 行 1 列 的 矩阵 ,公式 (6-13) 变 为 
R — CM'R (6-14) 
在 公式 (6-14) 中 ,R 可 以 看 作 MT KYA E h E HOS REEE 1/C. RAA ETE 
征 向 量 时 ,与 初始 值 无 关 , 因 此 ,只 要 把 R 看 作 主 特征 向 量 计算 ,就 可 以 不 依赖 初始 值 的 设 
置 得 到 问题 的 稳定 解 。 
和 军法 得 到 的 结果 与 初始 值 无 关 , 是 因为 结果 最 终 都 会 收敛 到 某 个 值 。 因 此 ,使 用 短 法 之 
前 ,要 确保 结果 能 够 收敛 。 但 是 ,在 互联 网 的 超 链 接 结构 中 ,一 旦 出 现 封 闭 的 情况 ,就 会 使 得 
寡 法 不 能 收 剑 。 所 谓 的 封闭 是 指 若干 个 网 页 互相 指向 对 方 , 但 不 指向 别 的 网 页 ,具体 的 例子 
如 图 6-9 所 示 。 


2 4 


22 
2 2 .4 ni 22 
2 A 22 


Hi 6-9 PageRank 网 络 最 优 解 的 收敛 性 


图 6-9 中 的 绿色 网 页 就 是 封闭 情况 。 这 种 情况 会 使 得 这 些 网 页 的 PageRank 在 计算 的 
时 候 不 断 地 累加 ,从 而 使 得 结果 不 能 收敛 。 仔 细 研 究 就 会 发 现 红 色 网 页 的 PageRank 给 了 
绿色 网 页 后 ,绿色 网 页 就 将 这 些 PageRank FHT o Larry Page 将 这 种 情况 称 为 Rank 
Sink, 

如 果 沿 着 网 页 的 链接 一 直 单 击 下 去 ,发现 老 是 在 同样 的 几 个 网 页 中 徘徊 ,怎么 办 ? 答案 
是 把 当前 页 面 关 掉 ,再 开 一 个 新 的 网 页 。 上 述 情况 正好 与 Rank Sink 类 似 , 也 就 意味 着 可 以 
借鉴 这 个 思想 解决 Rank Sink。 因 此 ,在 公式 (6-13) 的 基础 上 加 一 个 逃脱 因子 EE, 得 到 : 


RG) EA 
Ri) =C FA FCE Op) (6-15) 
D NG) 


其 中 ,E(i) 表 示 第 i 个 网 页 的 逃脱 因子 。 
将 (6-15) 变 成 矩阵 形式 ,可 得 : R = CMTR 十 CE = COMTR 十 已 ) 。 
其 中 , 列 向 量 R 的 1 范 数 ( 即 R 的 全 部 和 矩阵 元 素 相 加 ) 为 1。 
将 上 式 重 写 为 
































isl 


R = CM" -E* DR (6-16) 
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其 中 ,1 是 指 一 行 N 列 的 行 向 量 , 且 每 个 元 素 都 是 1。 


在 公式 (6-16) 中 ,只 要 将 RR 看 作 (MT 十 E*1) 的 特征 向 量 ,就 可 以 同时 解决 初始 值 设置 
问题 和 封闭 的 情况 。 


6.7 AdaBoost 算法 


6.7.1 Boosting 算法 的 发 展 历史 


Boost 算法 是 一 种 把 若干 个 分 类 器 整合 为 一 个 分 类 器 的 方法 上 1995 年 , Freund and 
schapire 首次 提出 了 Boost 算法 中 最 为 经 典 的 AdaBoost 算法 。AdaBoost 算法 的 主要 框架 
可 以 描述 为 : @ 经 过 多 次 循环 迭代 ,更 新 实体 样本 分 布 , 寻 找 当前 分 布下 的 最 优 弱 分 类 器 ， 
并 计算 弱 分 类 器 的 误差 率 。 四 多 次 训练 弱 分 类 器 ,并 将 训练 后 的 弱 分 类 器 整合 。 在 图 6-10 
中 ,可 以 看 到 完整 的 AdaBoost 算法 。 

Given: Gr yi» Gr, y, where xr; E X y EY={—1, +1} 
Initialize D (i) —1/m. 
For :—1,-.T 
* Train weak leamer using distribution D,. 
* Get weak hypothesis h, : X-*(— 1. 4-1) with error 
t, — Prco, Ch, Gr) Æ yi]. 





* Choose “= 二 人 LE ) 


* Update: 





i U if hC) = y 
Daa DEO. i b Ti yi 


Z es if hi Gn) 35 yi 
— D,G) exp (— ayh, Gri )) 


where Z, is a normalization factor(chosen so that D,+, will be a distribution). 


T 
Output the final hypothesis: — H(z) = sef 3c) 
e 


图 6-10 AdaBoost 算法 过 程 


随 着 人 类 对 Boost 算法 的 探索 ,该 算法 有 了 很 大 的 改进 ,出 现 了 各 种 改进 的 Boost 算 
法 。 例 如 ,LogitBoost $E iE ,GentleBoost 算法 等 。 在 本 节 中 ,作为 各 种 Boost 算法 的 基础 ， 
着 重 介绍 AdaBoost 算法 的 过 程 和 特性 。 


6.7.2 AdaBoost 算法 及 其 分 析 


从 图 6-11 中 可 以 看 到 AdaBoost 算法 的 详细 计算 过 程 ,总 结 如 下 。 

(1) AadaBoost 算法 由 一 系列 迭代 组 成 ,每 次 迭代 会 改变 样本 的 分 布 。 
(2) 样本 分 布 的 改变 取决 于 样本 是 否 被 正确 分 类 : 

D 赋予 分 类 正确 的 样本 以 较 低 的 权 值 ; 

@ 赋予 分 类 错误 的 样本 以 较 高 的 权 值 (通常 是 分 类 边界 附近 的 样本 )。 


doo d 大 数据 分 析 与 计算 


(3) 最 终 的 结果 是 弱 分 类 器 的 加 权 组 合 ,其 中 , 权 值 表示 E 
该 弱 分 类 器 的 性 能 。 
下 面 举 一 个 简单 的 例子 来 看 看 AdaBoost 的 实现 过 程 。 da4 一 
图 中 ,“ 十 ”和 “一 ”分 别 表 示 两 种 类 别 , 在 这 个 过 程 中 ,使 用 
水 平 或 者 垂直 的 直线 作为 分 类 器 来 进行 分 类 。 十 E 
第 一 步 : 根据 分 类 的 正确 率 ,得 到 一 个 新 的 样本 分 布 D, 和 -= 
一 个 子 分 类 器 户 ,如 图 6-12 所 示 。 其 中 , 画 圈 的 样本 表示 被 错 
分 的 样本 。 在 右边 的 图 中 ,比较 大 的 “十 "表示 对 该 样本 做 了 加 权 。 














图 6-11 AdaBoost 计算 过 程 


pue 

















图 6-12. AdaBoost 计算 过 程 第 一 步 
第 二 步 : 根据 分 类 的 正确 率 ,得 到 一 个 新 的 样本 分 布 D; 和 一 个 子 分 类 器 hs, 如 图 6-13 
BER. 





£-021 I 
0570.65 D;| + — 

















h 
图 6-13 AdaBoost 计算 过 程 第 二 步 


第 三 步 : 重复 上 述 步 又 ,得 到 一 个 子 分 类 器 六, 如 图 6-14 所 示 。 
第 四 步 : 整合 所 有 的 子 分 类 器 ,如 图 6-15 所 示 。 








图 6-14 AdaBoost 计算 过 程 第 三 步 图 6-15 AdaBoost 计算 过 程 第 四 步 
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从 得 到 的 整合 结果 看 ,即使 子 分 类 器 很 简单 ,但 组 合 起 来 的 分 类 器 可 以 获得 较 好 的 分 类 效 
果 。AdaBoost 算法 的 错误 率 上 界 , 随 着 选 代 次 数 的 增加 ,会 逐渐 下 降 , 它 在 实际 中 广 为 应 用 。 


6.8 k- 邻 近 算 法 


基于 实体 的 学 习 方法 中 最 基本 的 是 k- 近 邻 算 法 。 这 个 算法 假定 每 个 实体 对 应 于 维 
欧 氏 空间 A" 中 的 一 个 点 ,两 个 实体 的 之 间 的 距离 是 根据 标准 欧 氏 距离 定义 的 。 更 精确 地 
讲 ,把 任意 的 实体 z 表示 为 下 面 的 特征 向 量 3: 

«ay G),as (xz), ax)» 
其 中 ,a,(z) 表 示 实 体 z 的 第 个 属性 值 。 那 么 两 个 实体 x; RI c; 间 的 距离 定义 为 d(xi,zj)， 
其 中 ， 


d(;.y) = |) (a. Gr) — a, Gr)? (6-17) 


基于 实体 距离 的 概念 ,k- 近 邻 算法 就 是 找 出 某 个 实体 周围 最 靠近 的 个 实体 ,其 详细 的 
步 又 如 图 6-16 所 示 。 





训练 算法 : 
对 于 每 个 训练 样 例 <x,f(z)>, 把 这 个 样 例 加 入 列表 training examples 
分 类 算法 : 
给 定 一 个 要 分 类 的 查询 实例 X, 
在 training examples 中 选 出 最 靠近 X, 89 & 个 实例 ,并 用 zi xn 表示 
返 加 
ED arg max 2 os f) 


其 中 ,如 果 a=b, IA dla, b)=1, 6M] dla, b) =0, 











图 6-16 k- 近 邻 算 法 


下 面 通过 一 个 简单 的 案例 ,说 明 k- 近 邻 算法 的 原理 , 详 见 图 6-17。 在 此 案例 中 ,每 个 实 
体 由 二 维 空间 中 的 一 个 点 来 代表 , 且 目 标 函 数 具 有 布尔 值 。 正 反 训练 实体 样 例 用 “十 ”和 
“一 ”, 分 别 表示 查询 实体 x。 。 值 得 注意 的 是 ,在 这 幅 图 中 ,1- 近 邻 算法 把 zx, 分 类 为 正 例 , 然 
而 5- 近邻 算法 把 x, 分 类 为 反例 。 




















图 6-17 k- 近 邻 算法 示意 图 
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将 前 面 的 上 -近邻 算法 进行 简单 的 调整 后 ,就 可 被 用 于 逼近 连续 值 的 目标 函数 。 为 了 实 
现 这 一 点 ,我 们 用 此 算法 来 计算 上 个 最 临近 的 样 例 的 平均 值 ,而 不 是 计算 其 中 的 最 普遍 的 值 。 
更 精确 地 讲 , 为 了 通 近 一 个 实 值 目 标 函 数 f: 史 "一 吕 , 只 要 把 算法 中 的 公式 进行 以 下 替换 
k 
- MMGo 
fe) C—O i (6-18) 
对 kk- 近邻 算法 的 一 个 显而易见 的 改进 是 对 & 个 近邻 的 贡献 加 权 , 根 据 它 们 相对 查询 点 
a, 的 距离 ,将 较 大 的 权 值 赋 给 较 近 的 近邻 。 
例如 ,在 台 近 离散 目标 函数 的 算法 中 ,我 们 可 以 根据 每 个 近邻 与 v, 的 距离 平方 的 倒数 
加 权 这 个 近邻 的 权重 。 具 体 方法 可 通过 下 面 的 公式 来 实现 : 





k 
f(x) 一 arg max >, wð (w, fC) ) (6-19) 
i i=l 


Hp ew; 可 以 表示 为 : 
1 
dz 
当 查 询 点 zw 恰好 与 某 个 训练 样 例 z; 匹配 时 ,会 导致 rw 表达 式 中 分 母 为 0 的 情况 ,此 
时 , 令 这 种 情况 下 的 f(x) 等 于 f(x;)。 如 果 有 和 多 个 这 样 的 训练 样 例 , 我 们 使 用 它们 中 占 多 





w 三 (6-20) 


数 的 分 类 。 
当然 ,也 可 以 用 类 似 的 方式 对 实 值 目 标 函 数 进行 距离 加 权 , 具 体 方法 可 通过 下 面 的 蔡 换 
公式 来 实现 : 
N Dwf a) 
deed e (6-21) 


wi 
i=l 


其 中 ,rw 的 定义 与 之 前 公式 中 的 定义 相同 。 


6.9 ”朴素 贝 叶 斯 


朴素 贝 叶 斯 算法 的 分 类 基础 是 基于 贝 叶 斯 理论 , 贝 叶 斯 公式 如 下 所 示 吕 ; 


a PCX | 0 Ys 1) 
P(H | X) = COSE 


其 中 ,P(H|X) 是 根据 实体 参数 X 的 值 判断 该 实体 属于 类 别 HE 的 概率 , 称 为 后 验 概率 。 
P(H) 是 直接 判断 某 个 实体 样本 属于 H 的 概率 , 称 为 先 验 概 率 。P(X| 互 ) 是 在 类 别 互 中 观 
WAX 的 概率 ,而 PCX) 是 实体 参数 X 的 某 一 个 值 出 现 的 概率 。 


6.9.1 朴素 贝 叶 斯 分 类 器 


由 于 P(X) 对 于 任何 一 个 类 别 五 而 言 , 其 概率 值 都 是 固定 的 ,因此 在 计算 PCH | XO Wf 
不 需要 考虑 。 朴 素 贝 叶 斯 分 类 的 最 核心 假设 是 X 向 量 中 的 每 一 对 参数 X, 与 Xi 之 间 都 是 
相互 独立 的 ,因此 有 下 面 计算 PCX| 互 ) 的 公 
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P(X | C) = [[ Pee: | C) = PGi | CO X Plaz | C) X X PG, | CO 
k=1 


在 这 个 假设 下 ,朴素 贝 叶 斯 分 类 器 的 计算 过 程 可 以 分 解 为 一 系列 的 概率 计算 过 程 。 基 
于 训练 集 的 数据 ,事先 计算 出 每 个 类 别 的 概率 PCCO ,再 计算 出 每 个 类 别 下 每 个 参数 的 概率 
P(Xi|C;)。 当 一 个 新 样本 出 现时 ,可 以 利用 上 面 简化 之 后 的 贝 叶 斯 公式 计算 出 P(C;|X)， 
并 选择 此 概率 值 最 大 的 C, 记 为 分 类 结果 。 为 了 防止 出 现 零 概率 的 现象 ,可 以 在 计算 概率 
时 ,分 子 分 母 都 加 1。 朴 素 贝 叶 斯 分 类 器 的 算 例 如 图 6-18 和 图 6-19 所 示 。 





buys_computer 








Class : 
C1:buys_ computer =“yes” 
C2:buys_computer - *no" 





Data sample 

X - (age «- 30, 
Income = medium, 
Student - yes 
Credit rating = Fair) 

















excellent. 


图 6-18 朴素 贝 叶 斯 分 类 器 










m P(C): P(buys computer = “yes” ) = 9/14 = 0.643 
P(buys computer = “no” )= 5/14 = 0.357 
m Computer P(X|C;) for each class 
P “<=30”| buys computer = “yes” 0.222 
-30" | buys computer = “no” 5 — 0.6 
P(income = “medium” | buys computer " )= 4/9 = 0.444 


no" )- 2/5 - 0.4 
” ) 76/9 = 0.667 


P(income — 


“medium” | buys computer = 
P(student = » 


es" | buys computer — 





P(student es" | buys computer = “no 1/5 = 0.2 
P(credit rating = "fair" | buys computer = “yes” ) — 6/9 = 0.667 
P(credit rating “fair” | buys computer "no" ) 2 2/5 = 0.4 





m X= (age ——30, income = medium, student = yes.credit rating = fair) 
P(X|Ci): P(X|buys computer = ”) = 0.222x0.444x0.667*0.667—0.044 











P(X|buys computer “no” ) = 0.6x0.4x0.2x0.4—0.019 
P(X|C)*P(C)): 

P(X|buys computer — " " )xP(buys computer = “yes” )- 0.028 

P(X|buys computer = “no” ) xP(buys computer = “no” )- 0.007 


Therefore, X belongs to class( "buys computer = yes" ) 


图 6-19 朴素 贝 叶 斯 分 类 器 及 计算 过 程 


6.9.2 贝 叶 斯 网 络 


贝 叶 斯 网 络 不 需要 朴素 贝 叶 斯 分 类 器 中 参数 相互 独立 的 假设 ,如 果 参 数 A 依赖 于 参数 
B, 则 建立 B>A 的 一 条 有 向 边 。 贝 叶 斯 网 络 与 朴素 贝 叶 斯 分 类 器 的 异同 如 图 6-20 所 示 。 
可 以 看 到 在 计算 类 别 概率 P(c) 时 ,二 者 一 致 ; 在 计算 PCclick|c) 时 ,朴素 贝 叶 斯 分 类 器 只 与 
25 c 有 关 ,而 贝 叶 斯 网 络 还 依赖 于 html 的 值 。 

由 于 参数 之 间 存 在 依赖 关系 ,因此 在 计算 训练 集 的 概率 之 前 ,需要 先 建立 贝 叶 斯 网 络 。 
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Pr(c-'painting')-0.3 
E Pr(c-'e-commerce")-0.5 
-一 ” Pr(c=physics)=02 ~~、 


了 
z 
z 
z 
PA 
Pr(click-1 | c-'painting')-0.02 


Pr(click71 | c='e-commerce')=0.4 
Pr(click-l | c-'physics')-0.05 





(a) Naive Bayes Classifier: class-conditional distribution (b) Bayesian Network Classifier: the probability of a term 
on terms, but no other statistical dependences among. occurring may depend on observations about other 
the terms themselves terms as well as the class variable 


图 6-20 贝 叶 斯 网 络 示意 图 


一 种 生成 贝 叶 斯 网 络 的 方法 如 图 6-21 Bros JP M; CX Yo Am HIE SR X 和 参数 了 之 
间 的 相关 关系 。 当 两 个 参数 相互 独立 时 ,Mi 为 0; 当 Mi 大 于 0 时 ,表示 正 相 关 ; 当 M, 小 
于 0 时 ,表示 负 相关 。 


Computer mutual information MI(Xt,C) between class attribute C and each feature Xt; 
For each pair of distinct variables Xi and Xj, calculate MI(Xi,Xj|C); 
Initialize the network with class node C; 
while all Xt's have not been added to the network do 
Find Xj with maximum MI(Xj, C); 
Add Xj to the network; 
Add directed edge (C, Xj); 
while in-degree of Xj is less than k+1 and there is an Xi not connected to Xj do 
9. Find an Xi with highest MI(Xi, Xj|C); 
10. Add directed edge(Xi, Xj); 
11. end while 
12. end while 


€ 900 £RUINMrf7 


em A Pr(z,y) 
Mi(X,Y) > 之 Prlz. y)log FORG 


图 6-21 贝 叶 斯 网 络 计 算 过 程 


6.10 分 类 回归 树 算法 


分 类 回归 树 算 法 (Classification And Regression Tree. CART) $ Jl — f$ — 4) 3 IH 4 38 
的 技术 ,将 当前 的 样本 集 分 为 两 个 子 样本 集 , 从 而 保证 生成 的 每 个 非 叶子 节点 都 有 两 个 分 
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支 。 因 此 ,CART 算法 生成 的 决策 树 是 结构 简洁 的 二 叉 树 。CART 算法 主要 包括 两 个 基本 
步骤 : 一 是 用 训练 样本 递归 地 划分 自 变量 空间 来 建树 ,二 是 用 验证 样本 进行 剪 枝 9 。 


6.10.1 建立 回归 树 


CART 算法 通过 检查 每 个 变量 及 该 变量 所 有 可 能 的 划分 值 来 发 现 最 好 的 划分 。 对 于 
离散 属性 {z,y,z} 的 划分 , 除 空 集 和 全 集 外 ,有 三 种 情况 : ({{zx,y}),{z}},{{zx,z},y)， 
{{y,x},z)})。 对 于 连续 属性 的 处 理 ,可 以 引进 “分 裂 点 ”的 思想 ,假设 样本 集中 某 个 属性 共 
个 连续 值 , 则 有 n 一 1 个 分 裂 点 ,每 个 “分 裂 点 ”的 取 值 为 相 邻 两 个 连续 值 的 均值 (a[ 门 十 
a[i 十 1])/2, 每 个 属性 的 划分 可 参考 GINI 指标 。 当 我 们 用 RRE Rk 类 时 (k=1,2,3,…， 
C,C 是 类 别 集 的 总 数目 ) ,一 个 节点 A 的 GINI 指标 定义 为 : 

Gini(A) = 1 一 Sr (6-22) 


其 中 ,Pe 表示 观测 点 中 属于 类 的 概率 。 当 Gini(A)=0 时 ,所 有 的 样本 都 属于 同一 类 ; 当 
所 有 类 在 节点 中 以 相同 的 概率 出 现时 ,Gini(A) 取 得 最 大 值 ,为 (C 一 1)C/2。 


6.10.2 Epub f 


CART 过 程 的 第 二 个 关键 步骤 是 用 独立 的 验证 数据 集 对 训练 集 生成 的 树 进 行 剪 枝 。 

分 析 分 类 回归 树 的 递归 建树 过 程 , 不 难 发 现 它 实质 上 存在 着 一 个 数据 过 度 拟 合 的 问题 。 
在 构造 决策 树 时 ,由 于 存在 训练 数据 中 的 噪声 或 孤立 点 ,许多 分 枝 反映 的 是 训练 数据 中 的 异 
常 ,而 使 用 这 样 的 判定 树 对 类 别 未 知 的 数据 进行 分 类 时 准确 性 不 高 。 因 此 ,这 样 的 分 枝 应 当 
试图 检测 并 剪 掉 ,而 剪 掉 这 些 分 枝 的 过 程 被 称 为 树 剪 枝 。 树 剪 枝 方法 通常 用 于 处 理 过 度 拟 
合 的 问题 。 通 常 , 这 种 方法 使 用 统计 度量 , 减 去 最 不 可 靠 的 分 枝 , 这 将 导致 较 快 的 分 类 ,提高 
树 独立 于 训练 数据 正确 分 类 的 能 力 。 

决策 树 中 常用 的 剪 枝 方法 有 两 种 : 事前 剪 枝 和 事后 剪 枝 。CART 算法 经 常 采 用 事后 剪 
枝 方 法 ,该 方法 是 通过 在 完全 生长 的 树 上 剪 去 分 枝 来 实现 的 。 具 体 来 说 ,通过 删除 节点 的 分 
支 来 剪 去 树 节点 ,并 保留 最 下 层 未 被 剪 枝 的 节点 成 为 树叶 。 
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. 简 述 决策 树 的 原理 及 过 程 。 

. 阐述 k- 均 值 的 算法 原理 。 

. 阐述 k- 邻 近 的 算法 原理 。 

.描述 k- 均 值 与 fk- 邻近 算法 的 区 别 。 
. 简 述 AdaBoost 的 计算 过 程 。 








本 章 内 容 涉 及 文本 读 写 的 技术 实现 ,都 是 采用 Python 语言 完成 的 。 具 体 来 说 ,用 到 了 
Python 语言 中 的 Pandas 库 ,请 读者 在 学 习 本 章 前 安装 Python 及 其 Pandas 库 。 


7.1 读 取 文本 文件 


先 看 下 面 的 例子 : 用 户 访问 在 线 商城 的 系统 日 志 数据 ,存储 在 一 个 文本 文件 中 , 源 数据 
的 前 几 行 如 图 7-1 所 示 。 其 中 ,USER_IP 代表 用 户 的 访问 IP 地 址 ,ACCESS_DATE 代表 
访问 日 期 , ACCESS. WEEKDAY 代表 访问 日 期 是 商城 开业 后 的 第 几 周 ,ACCESS_TIME 





Fi A B c D E I F | 





1 USER IP ACCESS DATE ACCESS WEEKDAY — ACCESS TIME PERIOD PRODUCT. ID 

2 |211.83.110.102 2015/12/15 0:00 2 1900/1/1 13:29 2 CNAB20001016014 
3 211.83.110.102 2015/12/15 0:00 2 1900/1/1 13:51 2 CNAB20001216001 
4 211.83.110.102 2015/12/15 0:00 2 1900/1/1 13:55 2 CNAB20001216006 
5 |211.83.110.102 2015/12/15 0:00 2 1900/1/1 14:24 2 CNAB20001216002 
6 1211.83.110.102 2015/12/15 0:00 2 1900/1/1 18:19 3 CNAB20002115012 
7 211.83.110.102 2015/12/15 0:00 2 1900/1/1 18:19 3 CNAB20002115012 
8 211.83.110.102 2015/12/15 0:00 2 1900/1/1 18:19 3 CNAB20002115008 
9 /211.83.110.102 2015/12/15 0:00 2 1900/1/1 18:19 3 CNAB20001316012 
10 211.83.110.102 2015/12/15 0:00 2 1900/1/1 18:19 3 CNAB20002115008 
11 211.83.110.102 2015/12/15 0:00 2 1900/1/1 18:19 3 CNAB20001316012 
12 211.83.110.102 2015/12/15 0:00 2 1900/1/1 18:19 3 CNAB20001316001 
13 211.83.110.102 2015/12/15 0:00 2 1900/1/1 21:19 4 CNAB20002115013 
14 210.41.101.17 2015/12/15 0:00 2 1900/1/1 22:38 4 CNAB20001216004 
15 210.41.101.17 2015/12/15 0:00 2 1900/1/1 22:38 4 CNAB20001216007 
16 210.41.101.17 2015/12/15 0:00 2 1900/1/1 22:38 4 CNAB20001216002 
37 210.41.101.17 2015/12/15 0:00 2 1900/1/1 22:45 4 CNAB20001216006 
18 210.41.101.17 2015/12/16 0:00 3 1900/1/10:13 5 CNAB20001016009 
19 223.104.9.193 2015/12/16 0:00 3 1900/1/1 8:30 1 CNAB20002115011 
20 171.213.61.185 2015/12/16 0:00 3 1900/1/1 13:58 2 CNAB20001016014 
21 117.136.70.52 2015/12/16 0:00 3 1900/1/1 16:41 3 CNAB20002115011 
22 117.136.7052 2015/12/16 0:00 3 1900/1/1 16:41 3 CNAB20002115009 
23 117.136.7052 2015/12/16 0:00 3 1900/1/1 16:41 3 CNAB20002115008 


图 7-1 案例 中 的 源 数 据 
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是 指 访问 的 时 间 点 ,PERIOD 是 指 访问 的 时 间 点 在 哪 一 个 时 段 ,PRODUCT _ID 指 的 是 单 击 
浏览 了 哪个 商品 页 面 。 


7.1.1 读 取 txt 文件 


图 7-1 中 的 源 数据 存储 在 test. txt 文件 中 时 ,如 果 想 要 读 取 文 本 信息 ,需要 以 下 一 系列 
操作 口 。 

1. 打开 test. txt 文档 

打开 test. txt 文档 需要 的 操作 是 


>>> fp = open('test. txt', 'r') 
当 我 们 输入 


>>> fp 

Python Shell 中 会 显示 

< open file 'test. txt', mode 'r'at Ox02BBOE38 > 

这 说 明 test. txt 文档 已 经 成 功 打开 了 。 

在 上 述 操作 中 ,用 到 了 open 函数 。open 函数 的 第 一 个 参数 'test. txt' 是 需要 打开 文本 
的 存储 路 径 , 此 处 的 路 径 可 采用 绝对 路 径 或 相对 路 径 , 这 取决 于 读 取 的 文本 文件 和 Python 
代码 文件 是 否 在 同一 个 文件 夹 里 面 。 第 二 个 参数 'r' 指 open 函数 采用 的 模式 为 “ 读 取 模 式 ”。 

2. 读 取 test, txt 文档 中 的 某 几 行 

我 们 想 要 读 取 一 个 文档 中 的 某 一 行 或 几 行 时 ,可 以 采用 下 面 一 组 命令 : 

>>> fp. readline() 

Python Shell 中 会 显示 

'211.83. 110.102 \t2015/12/15 0:00\t2\t1900/1/1 13:29\t2\tCNAB20001016014 \tNone \t1\n' 
其 中 ,\t 表示 横向 跳 转 到 下 一 个 制 表 符 。 

>>> fp. readlines() 

此 时 ,Python Shell 中 会 显示 文档 中 的 所 有 行 数据 。 

3. 读 取 文 本 常用 函数 

open( 'text. txt', 'r') 函 数 中 的 第 一 个 参数 'test. txt' 是 打开 文本 文件 的 路 径 , 第 二 个 参数 
rU SUB. 

CD r 代表 读 取 模 式 ; 

(2) w RECS ALBEN 

G) a 代表 追加 模式 ; 

(4) r 十 代表 读 写 模式 。 

read() 表 示 读 取 到 文件 尾 。 


seek(0) 表 示 跳 到 文件 开始 位 置 。 
readline() 逐 行 读 取 文 本 文件 。 
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readlines() 读 取 所 有 行 到 列表 中 ,通过 for 循环 可 以 读 出 数据 。 
close() 关 闭 文件 。 


7.1.2 读 取 csv 文件 


读 取 csv 文 件 时 ,可 以 采用 7.1.1 节 中 读 取 txt 文件 的 所 有 常用 函数 。 除 此 之 外 ,还 可 
以 采用 Pandas 中 提供 的 一 些 函 数 ,将 csv 等 表格 型 文件 直接 读 取 到 一 个 Python 的 
DataFrame 对 象 里 面 。 最 常用 的 函数 包括 read_csv 和 read. table 函数 [3] 。 

当 图 7. 1 中 的 源 数据 存储 在 test. csv 文件 中 时 ,可 以 通过 下 面 的 命令 实现 读 取 文 件 的 
数据 。 

1. read csv 函数 

首先 导入 Pandas E 


>>> import pandas as pd 
然后 通过 
>>> df = pd. read csv( 'test. csv') 


将 test. csv 存储 到 df 这 个 DataFrame 里 面 。 
可 以 通过 下 面 的 命令 来 查看 df 的 主要 内 容 。 
>>> df 


<class 'pandas. core. frame. DataFrame'> 
Int64Index: 619 entries, 0 to 618 


Data columns: 

USER IP 619 non- null values 
ACCESS DATE 619 non- null values 
ACCESS WEEKDAY 619 non- null values 
ACCESS TIME 619 non- null values 
PERIOD 619 non- null values 
PRODUCT ID 619 non- null values 


dtypes: int64(3), object(5) 

2. read table 函数 

首先 导入 pandas 库 

>>> import pandas as pd 

然后 通过 

>>> df = pd. read table('test.csv', sep- ', ') 


将 test. csv 存储 到 df 这 个 DataFrame 里 面 。 
可 以 通过 下 面 的 命令 来 查看 df 的 主要 内 容 。 
>>> df 


< class 'pandas. core. frame. DataFrame'» 
Int64Index: 619 entries, 0 to 618 
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Data columns: 

USER IP 619 non- null values 
ACCESS DATE 619 non- null values 
ACCESS WEEKDAY 619 non- null values 
ACCESS TIME 619 non- null values 
PERIOD 619 non- null values 
PRODUCT ID 619 non- null values 


dtypes: int64(3), object(5) 


3. 逐 块 读 取 文 本 文件 

在 处 理 大 型 文本 文件 时 ,有 时 只 想 读 取 文 件 的 一 小 部 分 或 逐 块 对 文件 进行 迭代 。 

对 于 上 述 的 test. csv 文件 ,如 果 只 想 读 取 其 中 的 几 行 (避免 读 取 整 个 文件 ) ,就 可 以 通过 
nrows 来 进行 指定 : 


>>> df5 = pd. read table('test.csv', nrows = 5) 


表示 只 读 取 DataFrame 中 的 前 5 行 。 
当 我 们 要 逐 块 读 取 文件 时 ,还 有 一 种 办 法 是 设置 chunksize( 行 数 ) : 
>>> chunck = pd. read csv('test.csv', chunksize = 5) 
>>> chunck 
< pandas. io. parsers. TextParser object at 0x051EC530 > 


read csv 返回 的 这 个 TextParser 对 象 可 以 根据 chuncksize 对 文件 进行 逐 块 和 迭代 。 比 如 ,可 
以 迭代 处 理 test. csv 文件 ,统计 该 文件 中 的 行 数 可 以 用 下 面 的 操作 : 
>>> tot=0 


>>> for piece in chunck: 
tot = tot+1 


将 每 一 块 中 的 数据 行 数 统计 后 ,再 迭代 求 出 整个 test. csv 文件 中 的 数据 总 行 数 。 


7.2 写 入 文本 文件 


要 把 数据 写 入 txt 文件 ,就 必须 先 创建 file 对 象 。 但 是 ,在 这 种 情况 下 ,必须 用 “w” 模 式 
标记 指定 要 写 入 的 文件 。 首 先 ,创建 一 个 名 叫 myfile 的 文件 3 。 

>>> mydata = ['Date', 'Time'] 

>>> myfile = open('testit.txt', 'w') 

>>> for line in mydata: 


nyfile.write(line + '\n') 


在 这 个 示例 中 ,首先 把 mydata list 的 内 容 写 人 文件 ,关闭 文件 ,然后 重新 打开 文件 ,就 
可 以 读 取 文件 内 容 了 。 


>>> myfile.close() 
>>> myfile = open("testit. txt") 
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>>> myfile. read() 
'Date\nTime\n' 
>>> myfile.close() 


有 些 情况 下 ,我 们 想 要 同时 读 取 和 写 和 文件。 在 下 面 这 个 示例 中 ,用 “r 十 "模式 重新 打 
HELE 


>>> myfile. seek(0) 

>>> myfile.read() 

'Date\nTime\n' 

>>> myfile.close() 

>>> myfile = open("testit. txt", "r +a") 

>>> myfile.read() 

'Date\nTime\n' 

>>> for line in mydata: 
myfile.write(line + '\n') 

>>> myfile. seek(0) 

>>> myfile.read() 

'Date\nTime\nDate\nTime\n' 

>>> myfile.close() 


我 们 只 是 写 入 文件 ,而 不 是 添加 文件 ,因此 文件 会 被 截断 。 首 先 ,把 mydata list 的 内 容 
写 和 人 文件 ,再 把 文件 指针 重新 定位 到 文件 开头 ,并 开始 读 和 内容 。 然 后 ,将 文件 关闭 ,并 用 读 
取 和 添加 模式 “r 十 a" 重 新 打开 文件 。 正 如 上 述 示例 代码 所 示 ,文件 的 内 容 是 两 次 写 入 操作 
的 结果 ( 即 文本 是 重复 的 ) 。 


7.3 处 理 二 进 制 数据 


在 前 面 所 有 的 示例 中 ,都 需要 处 理 文本 数据 或 字符 数据 , 即 写 人 和 读 取 字 符 串 。 然 而 ， 
在 某 些 情况 下 ,例如 在 处 理 整数 或 压缩 文件 时 ,需要 读 取 和 写 入 二 进 制 数 据 。 在 创建 file 对 
象 时 ,通过 把 “b” 添 加 到 文件 模式 中 ,就 可 以 容易 地 用 Python 处 理 二 进 制 数据 本 。 

>>> myfile = open("testit. txt", "wb") 

>>> for c in range(50, 70): 

myfile.write(chr(c)) 

>>> myfile.close() 

>>> myfile = open("testit. txt") 

>>> myfile. read() 

'23456789: ;< = >?@ABCDE' 


>>> myfile.close() 

在 上 述 示例 中 ,首先 创建 一 个 合适 的 file 对 象 ,然后 用 从 50 到 69 的 ASCI 值 写 人 二 进 
制 字符 。 使 用 chr 方法 ,把 range 调用 创建 的 整数 转变 成 字符 。 在 写 完 所 有 数据 之 后 ,关闭 
文件 并 重新 打开 文件 进行 读 取 , 还 是 使 用 二 进 制 模 式 进行 标记 。 从 读 取 文 件 的 结果 可 以 看 
到 ,文件 的 内 容 是 二 进 制 字符 。Python 中 不 同 的 平台 .会 用 不 同 的 方式 保存 二 进 制 数据 。 
如 果 必 须 处 理 二 进 制 数据 ,最 好 是 使 用 来 自 标准 Python 库 的 对 象 。 
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7.4 数据 库 的 使 用 


7.4.1 数据 库 的 连接 
引入 数据 处 理 模块 之 后 ,就 需要 和 数据 库 进行 连接 了 ,具体 的 实现 代码 如 下 c 。 


db = MySQLdb. connect("localhost","root","123456","myciti" ) 


上 面 的 代码 中 含有 4 个 关键 的 参数 : 第 一 个 参数 是 服务 器 的 地 址 ; 第 二 个 参数 是 用 户 
名 ; 第 三 个 参数 是 DBMS 密码 ; 第 四 个 参数 是 需要 访问 的 数据 库 名 称 。 当 然 ,connect 函数 
的 参数 不 止 这 些 ,详细 的 参数 列表 如 下 。 

host: 该 参数 表示 连接 的 数据 库 服务 器 主机 名 ,默认 为 本 地 主机 。 

user; 该 参数 表示 连接 数据 库 的 用 户 名 ,默认 为 当前 用 户 。 

passwd: 该 参数 表示 连接 密码 ,没有 默认 值 。 

db: 该 参数 表示 连接 的 数据 库 名 ,没有 默认 值 。 

conv: 该 参数 表示 将 文字 映射 到 Python 类 型 的 字典 ,默认 为 MySQLdb. converters. 
conversions, 

cursorclass; 该 参数 表示 cursor() 使 用 的 种 类 ,默认 值 为 MySQL db. cursors. Cursor. 

compress: 该 参数 表示 启用 协议 压缩 功能 。 

named_pipe: 在 Windows 中 ,该 参数 表示 与 一 个 命名 管道 相连 接 。 

init command; 一 旦 连接 建立 ,就 为 数据 库 服 务 器 指定 一 条 语句 来 运行 。 

read default file; 该 参数 表示 使 用 指定 的 MySQL 配置 文件 。 

read_default_group: 该 参数 表示 默认 的 读 取 组 。 

unix_socket: 在 UNIX 中 ,该 参数 表示 连接 使 用 的 套 接 字 ,默认 使 用 TCP。 

port; 该 参数 指定 数据 库 服务 器 的 连接 端口 ,默认 是 3306. 

MySQLdb 的 connect 函数 中 ,该 参数 的 默认 值 是 3306。 如 果 在 安装 MySQL 的 时 候 ， 
修改 了 数据 库 的 端口 号 ,就 需要 在 源码 中 修改 该 参数 了 。 


7.4.2 执行 SQL 语句 
连接 上 数据 库 之 后 ,就 需要 开始 执行 SQL 语句 了 ,其 源 代码 如 下 。 


import MySQLdb 
db = MySQLdb. connect(" localhost", "root", "123456", "nyciti" ) 
cursor - db.cursor() 
sql = """insert into article values (0," woainimahah"," http://www. aa. com"," 2012 - 9 — 8", 
"wo", "qq", " skjfasklfj","2019","up")""" 
try: 
cursor. execute( sql) 
db. commit() 
except: 
db. rollback() 
db.close 





第 7 章 文本 读 写 技术 d 


值得 注意 的 是 , 当 需 要 使 用 commit 操作 时 ,如 果 不 提交 ,数据 库 不 会 有 任何 变化 。 


7.4.3 选择 和 打印 


连接 数据 库 的 主要 目的 是 读 取 数 据 库 中 的 信息 。 问 题 在 于 ,如 何 获取 数据 库 中 的 数据 ， 
如 何 有 效 提取 信息 ? 本 节 中 将 介绍 数据 的 展示 和 打印 功能 。 
具体 来 说 ,下 面 的 程序 可 以 实现 打印 数据 库 中 article 表 的 第 二 列 数据 。 


import MySQLdb 
db = MySQLdb. connect("localhost", "root", "123456", "myciti" ) 
cursor = db.cursor() 
cursor.execute("select * from article") 
data = cursor.fetchone() 
while data!- None: 
print data[1] 
data = cursor.fetchone() 
db. close 


此 外 ,也 可 以 使 用 如 下 代码 。 


import MySQLdb 
db = MySQLdb. connect(" localhost" ,"root", "123456", "nyciti" ) 
cursor = db.cursor() 
cursor.execute("select * from article") 
datas = cursor.fetchall() 
for data in datas: 
print data[1] 
print cursor. rowcount, "rows in tatal" 
db. close 


从 上 述 代码 中 可 以 看 出 各 个 函数 的 区 别 : fetchone 是 从 数据 库 表 中 取出 一 行 记 录 , 之 
后 便 取 出 next 行 ,不 断 向 后 循环 。fetchall 是 取出 数据 库 表 中 的 所 有 行 数据 ,rowcount 是 读 
出 数据 库 表 中 的 行 数 。 


7.4.4 动态 插入 
下 面 介绍 一 下 动态 插入 方式 ,动态 插入 是 用 占 位 符 来 实现 的 。 


import MySQLdb 
title = "title" 
url - "urlofwebpage " 
db = MySQLdb. connect(" localhost", "root", "123456", "nyciti" ) 
cursor - db.cursor() 
sql = """insert into article values (0," % s"," % s","2012 — 9 — 8", "wo", " qq", " skjfask1£j", 
*2019", "up")""* 
try: 
cursor.execute(sql % (title,url)) 
db. commit() 
except: 
db. rollback() 
db. close 
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在 上 述 代码 中 ,“%s” 表 示 字 符 串 的 占 位 符 。 可 以 看 到 ,这 里 的 “%s” 占 位 符 和 上 面 的 使 


用 方式 类 似 , 但 在 此 处 却 实现 了 title 和 url 的 动态 插入 。 


[1] 
[2] 
[3] 


[4] 


7.4.5 update 操作 
在 update 的 操作 中 , 占 位 符 的 使 用 和 上 面 是 一 样 的 。 具 体 的 实现 代码 如 下 。 


import MySQLdb 
title = "title" 
id= 11 
db = MySQLdb. connect("localhost","root","123456","myciti" ) 
cursor = db.cursor() 
sql = """update article set title = "ss" where id = "sd" """ 
try: 
cursor. execute(sq1 % (title, id)) 
db. comnit() 
except: 
db. rollback() 
db. close 
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习题 


读 取 文 本 常用 的 函数 有 哪些 ? 

如 何 将 csv 文件 直接 读 取 到 一 个 Python 的 DataFrame 对 象 里 面 ? 
如 何 将 Python 内 容 写 入 文本 文件 中 ? 

在 Python 中 如 何 读 取 二 进 制 文本 ? 

在 Python 中 如 何 与 数据 库 进 行 连接 ? 


Gu EI ey 








存放 在 文件 或 者 数据 库 中 的 原始 数据 并 不 总 能 满足 数据 分 析 应 用 的 要 求 。 通 常 ,原始 
数据 中 存在 不 符合 规范 的 数据 格式 ,或 者 存在 数据 缺失 的 情况 。 在 这 些 情况 下 ,必须 对 原始 
数据 进行 包括 加 载 、 清 理 ,转换 和 重 塑 等 处 理 。 事 实 上 ,数据 分 析 和 数据 建 模 工作 的 大 量 时 
间 都 用 在 数据 准备 环节 上 。 


8.1 合并 数据 集 


数据 存储 时 ,往往 会 按照 数据 的 物理 含义 ,将 数据 分 别 存储 在 不 同 的 表 中 ,以 便于 管理 
和 操作 。 然 而 ,在 数据 分 析 和 数据 建 模 时 ,往往 需要 将 不 同 的 数据 表 进 行 关 联 或 合并 ,从 而 
找 出 不 同 数据 项 之 间 的 内 在 关联 。 下 面 就 介绍 如 何 对 数据 集 进 行 合并 操作 中 。 


8.1.1 索引 上 的 合并 


在 DataFrame 中 ,两 个 或 多 个 表 的 连接 键 有 时 会 位 于 其 索引 中 。 在 这 种 情况 下 ,需要 传人 
left index = True 或 right_index = True (或 两 个 都 传 ) 以 说 明 索 引 应 该 被 用 作 连 接 键 。 


In [8]: lefti = pd.DataFrame(('key': ['a', 'b', 'a', 'a', 'b', 'c'], 
"value':range(6)]) 


In [9]: rightl = pd.DataFrame(('group val':[3.5, 7]), index- ['a', 'b']) 


In [10]: lefti 
Out[10]: 
key value 
0 a 0 
1 b 1 
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ue wN 
arwy 
ue wN 


[6 rows x 2 columns] 


In [11]: right1 


Out[11]: 
group val 

a 3.5 

b 7.0 


[2 rows x 1 columns] 


In [12]: pd.merge(leftl, rightl, left on- 'key', right index- True) 


0ut[12]: 

key value group val 
0a 0 3.5 
2 a 2 3.5 
3 a 3 3:5 
Ab. 1 Ta 
4 b 4 7.0 


[5 rows x 3 columns] 


默认 的 merge 方法 是 求 取 两 张 关 联 表 的 交集 部 分 。 因 此 ,如 果 需 要 求 取 关联 表 的 并 集 
部 分 ,可 以 通过 外 连接 的 方式 得 到 它们 的 并 集 。 


In [13]: pd.merge(leftl, rightl, left on- 'key', right_index = True, how= 'outer') 


Out[13]: 
key value group_val 

0 a 0 3:5 
2 a 2 3:5 
3 a 3 3:5 
1 b 1 7.0 
4 b 4 7.0 
5 c 5 NaN 


[6 rows x 3 columns] 


下 面 再 来 看 一 种 比较 复杂 的 情况 , 即 某 个 表 中 的 index 是 复合 键 进 行 索引 的 。 


In [14]: lefth = pd.DataFrame(('keyl': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 
"key2': [2000, 2001, 2002, 2001, 2002], 
'data': np.arange(5. ))) 


In [15]: righth = pd.DataFrame(np.arange(12).reshape((6, 2)), 
IL index = [['Nevada', 'Nevada', 'Ohio', 'Ohio', 'Ohio', 'Ohio'], 
[2001, 2000, 2000, 2000, 2001, 2002]], 
columns - ['eventl', 'event2']) 
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In [16]: lefth 
Out[16] 
data keyl key2 

0 0 Ohio 2000 
2 Ohio 2001 
2 2 Ohio 2002 
3 3 Nevada 2001 
4 4 Nevada 2002 


[5 rows x 3 columns] 


In [17]: righth 


Out[17]: 
eventl event2 
Nevada 2001 0 1 
2000 2 3 
Ohio 2000 4 5 
2000 6 7 
2001 8 9 
2002 10 11 


[6 rows x 2 columns] 


可 以 看 到 ,righth 表 中 的 index 是 由 keyl 和 key2 两 个 键 的 复合 键 组 成 的 ,必须 以 列表 
的 形式 指明 用 作 合 并 键 的 多 个 列 ( 注 意 对 重复 索引 值 的 处 理 ) 。 


In [18]: pd.merge(lefth, righth, left on=['keyl', 'key2'], right index= True) 


Out[18]: 

data keyl key2 eventl event2 
0 0 Ohio 2000 4 5 
0 0 Ohio 2000 6 jt 
3! 1 Ohio 2001 8 9 
2 2 Ohio 2002 10 11 
3 3 Nevada 2001 0 1 


[5 rows x 5 columns] 


In [19]: pd.merge(lefth, righth, left on- ['keyl', 'key2'], right index- True, how- 'outer') 


Ovt[19]: 

data keyl key2 eventl event2 
0 0 Ohio 2000 4 5 
0 0 Ohio 2000 6 7 
NE! Ohio 2001 8 9 
o Ohio 2002 10 11 
3 3 Nevada 2001 0 T 
4 4 Nevada 2002 NaN NaN 
4 NaN Nevada 2000 2 3 


[7 rows x 5 columns] 


此 外 ,也 可 以 采用 合并 双方 的 索引 ,实现 多 个 表 之 间 的 关联 。 
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In [21]: left2 = pd.DataFrame([[1., 2.], [3., 4. ], [5., 6.]], index- ['a', 'c', 'e'], columns = 
['Ohio', 'Nevada']) 


In [22]: right2 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]], 
index- ['b', 'c', 'd', 'e'], columns - ['Missouri', 'Alabama']) 


In [23]: left2 


Out[23]: 
Ohio Nevada 
a P 2 
c 3 4 
e s 6 


[3 rows x 2 columns] 


In [24]: right2 


Out[24]: 
Missouri Alabama 
b Yi 8 
c 9 10 
d 11 12 
e 13 14 


[4 rows x 2 columns] 


In [25]: pd.merge(left2, right2, how- 'outer', left index- True, right index = True) 
Out[25]: 
Ohio Nevada Missouri Alabama 
I 2  NaN NaN 
NaN NaN 7 8 
3 4 9 10 
NaN NaN 11 12 
5 6 13 14 


onov? 


[5 rows x 4 columns] 


除了 merge 以 外 ,DataFrame 还 有 一 个 join 函数 . 它 能 更 为 方便 地 实现 按 索引 合并 。 
join 函数 还 可 用 于 合并 多 个 带 有 相同 或 相似 索引 的 DataFrame 对 象 ,而 不 管 它们 之 间 有 没 
有 重合 的 列 。 在 上 面 的 例子 中 ,可 以 重新 用 join 实现 。 


In [26]: left2. join(right2, how= 'outer') 
Out[26]: 

Ohio Nevada Missouri Alabama 

1 2 NaN NaN 

NaN NaN 7 8 

94 o 10 

NaN NaN 11 12 

5 6 13 14 


o 00ct0cf 


[5 rows x 4 columns] 
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由 于 一 些 历史 原因 (早期 版 本 的 Pandas 规定 的 ) ,DataFrame 的 join 函数 默认 是 通过 在 
连接 键 上 做 左 连接 ,对 多 个 表 进 行 关联 的 。 


In [28]: left1.join(rightl, on- 'key') 


Out[28]: 
key value group val 

oa 0 3:5 
1 b 1 7.0 
2 a 2 3:5 
k zi 3.5 
4 b 4 7.0 
570g 5 NaN 


[6 rows x 3 columns] 


8.1.2 轴 向 连接 


另 一 种 数据 合并 运算 也 被 称 作 连接 、 绑 定 或 堆 释 。NumPy 有 一 个 用 于 合并 原始 
NumPy 数组 的 concatenation PR 7C : 


In [32]: arr = np.arange(12).reshape((3, 4)) 


In [33]: arr 

0ut[33]: 

array([[ 0, 1, 2, 3], 
[L4 5, 6,7], 
[ 8, 9, 10, 11]]) 


In [34]: np. concatenate([arr, arr], axis= 1) 
Out[34]: 
Ger lO e dL 3 
[BW 67] 
[:8,:9, 10, 11, 8, 9, 10, 1111) 
对 于 Pandas 对 象 (如 Series 和 DataFrame) , 带 有 标签 的 轴 能 够 进一步 推广 数组 的 连接 
和 运算。 具体 地 说 ,需要 考虑 以 下 这 些 内 容 。 
(1) 如 果 各 对 象 其 他 轴 上 的 索引 不 同 , 那 些 轴 应 该 是 做 并 集 还 是 交集 ? 
(2) 结果 对 象 中 的 分 组 需要 各 不 相同 吗 ? 
(3) 用 于 连接 的 轴 重 要 吗 ? 
Pandas 的 concat 函数 提供 了 一 种 能 够 解决 这 些 问题 的 可 靠 方 式 。 下 面 将 给 出 一 些 例 
子 来 讲解 其 使 用 方式 。 假 设 有 三 个 没有 重合 索引 的 Series: 


In [35]: s1 = pd.Series([0, 1], index- ['a', 'b']) 
In [36]: s2 = pd.Series([2, 3, 4], index- ['c', 'd', 'e']) 


In [37]: s3 = pd.Series([5, 6], index- ['£', 'g']) 


对 这 些 对 象 调用 concat 可 以 将 值 和 索引 粘 合 在 一 起 : 
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In [38]: pd.concat([s1, s2, s3]) 
Out[38]: 


mo c f» 
aous wnk o 


dtype: int64 


默认 情况 下 ,concat 是 在 axis 二 0 上 工作 的 ,最 终 产 生 一 个 新 的 Series。 如 果 传 人 axis=1, 
则 结果 就 会 变 成 一 个 DataFrame(axis 一 1 是 列 ) : 


In [39]: pd. concat([s1, s2, s3], axis= 1) 
Out[39]: 
0 1. 2 
a 0 NaN NaN 
b 1 NaN NaN 
c NaN 2 NaN 
d NaN 3 NaN 
e NaN 4 NaN 
f NaN NaN 5 
g NaNNaN 6 


[7 rows x 3 columns] 


在 这 种 情况 下 ,另外 一 条 轴 上 没有 重叠 ,从 索引 的 有 序 并 集 ( 外 连接 ) 上 就 可 以 看 出 来 。 
f£ A join= 'inner' 即 可 得 到 它们 的 交集 。 


In [41]: pd.concat([s1, s4], axis- 1) 
Out[41]: 

0 
a 0 
b 1 
f NaN 
g NaN 


ou u 口 


[4 rows x 2 columns] 


In [42]: pd. concat([s1, s4], axis=1, join= 'inner') 
Out[42]: 

DEL 
a 0 0 
DEIN 
[2 rows x 2 columns] 


此 外 ,还 可 以 通过 join axes 指定 要 在 其 他 轴 上 使 用 的 索引 。 


In [43]: pd.concat([sl, s4], axis - 1, join axes- [['a', 'c', 'b', 'e']]) 
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Out[43] : 

Qro 
a 0 0 
c NaN NaN 
bU 
e NaN NaN 


[4 rows x 2 columns] 


然而 ,如 果 想 要 区 分 结果 中 不 同 的 片段 , 则 需要 在 连接 轴 上 创建 一 个 层次 化 索引 。 具 体 
来 说 ,可 以 通过 使 用 keys 参数 来 达到 这 个 目的 。 


In [44]: result = pd.concat([s1，s1，s3]，keys ['one', 'two', 'three']) 

In [45]: result 

Out[45]: 

one a 
b 

two a 
b 
£ 


three 


aoaunrorno 


g 
dtype: int64 


如 果 沿 着 axis=1 对 Series 进行 合并 , 则 keys 就 会 成 为 DataFrame 的 列 头 。 


In [49]: pd.concat([s1, s2, s3], axis- 1, keys= ['one', 'two', 'three']) 


Out[49]: 
one two three 
a 0NaN NaN 


b 1NaN NaN 
C NaN 2 NaN 
d NaN 3 NaN 
eNaN 4 NaN 
f NaNNaN 5 
gNaNNaN 6 


[7 rows x 3 columns] 


同样 的 逻辑 对 DataFrame 对 象 也 是 一 样 的 。 


In [50]: dfl = pd.DataFrame(np.arange(6).reshape(3，2)，index= ['a', 'b', 'c'], 
- columns = [ 'one', 'two']) 


In [51]: df2 


pd.DataFrame(5 + np.arange(4).reshape(2, 2), index- ['a', 'c'], 


columns = [ 'three', 'four']) 


In [52]: pd.concat([df1, df2], axis- 1, keys = ['levell', 'level2']) 
Out[52]: 
levell level2 
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count 


one two three four 


a 0 Jm 5 6 
b 2 B NaN NaN 
e 4 5 y 8 


[3 rows x 4 columns] 
如 果 传 人 的 不 是 列表 而 是 一 个 字典 , 则 字典 的 键 就 会 被 当 作 keys 选项 的 值 。 


In [53]: pd.concat(('levell': dfl, 'level2': df2), axis- 1) 
Out[53]: 
levell level2 
one two three four 


a 0 T 5 6 
b 2 3 NaN NaN 
c 4 5 7 8 


[3 rows x 4 columns] 
此 外 ,还 有 两 个 用 于 管理 层次 化 索引 创建 方式 的 参数 ,参见 表 8-1. 


In [54]: pd.concat([df1, df2], axis- 1, keys = ['levell', 'level2'], names = ['upper', 'lower']) 
Out[54]: 

upper levell level2 

lower one two three four 


a 0 1 5 6 
b 2 Ei NaN NaN 
e 4 5 $ 8 


[3 rows x 4 columns] 

表 8-1 连接 合并 操作 的 常用 函数 
E] 数 解释 说 明 
计算 子 字符 串 在 某 一 字符 串 中 出 现 的 次 数 





endswith/startwith | 判断 字符 串 是 否 以 某 个 字符 开头 或 结尾 

















join 把 某 个 序列 (字符 串 序 列 ) ,用 某 个 字符 串 连 接 起 来 

index 与 find 函数 相同 ,只 是 字符 串 中 没有 找到 某 个 子 字符 串 时 ,返回 错误 

find 返回 字符 串 中 出 现 子 字符 串 的 第 一 个 字母 的 位 置 ,如 果 没 有 ,返回 一 1 

rfind 返回 从 右 侧 算 起 字符 串 中 出 现 子 串 的 第 一 个 字母 的 位 置 , 如 果 没 有 ,返回 一 1 
replace 把 字符 串 中 的 旧 的 子 字符 串 替 换 为 新 的 子 字符 串 





strip/rstrip/lstrip 


把 字符 串 中 前 或 后 字符 中 有 的 字符 全 部 去 掉 。 如 果 不 指定 参数 chars, 则 会 去 掉 空 
白字 符 





split 


基于 某 种 分 隔 符 ,把 字符 串 分 割 成 一 个 列表 





lower，upper 大 小 写字 母 转换 





ljust, 


左 或 右 对 齐 输出 字符 串 ,总 宽度 为 width, 不 足 部 分 以 参数 fillehar 指定 的 字符 填充 ， 
默认 用 空格 填充 


rjust 








8.1.3 合并 重合 数据 
当 两 个 数据 集 的 索引 全 部 或 部 分 重 释 时 ,它们 的 数据 组 合 问题 就 不 能 用 简单 的 合并 或 
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连接 运算 来 处 理 了 中 。 


In [64]: a = pd.Series([np.nan, 2.5, np.nan, 3.5, 4.5, np.nan], index- [ '£', 'e', 'd', 'c', 'b', 'a']) 


In[65]: b = pd.Series(np.arange(len(a), dtype = np. float64), index- ['f', 'e', 'd', 'c', 'b', 'a']) 


In [66]: b[ -1] = np.nan 
下 面 实现 完全 重 且 的 两 个 数据 集 的 合并 , 当 第 一 个 数据 集 非 空 时 , 取 第 一 个 数据 集 的 
值 ,否则 取 第 二 个 数据 集 的 值 。 


In[67]: a 
Out[67]: 


nm c000 nm 


NaN 
2.5 
NaN 
3:5 
4.5 
NaN 


dtype: float64 


In [68]: b 
Out[68]: 


z 
e 
d 
c 
b 
a 


0 


w 


4 
NaN 


dtype: float64 


In [69]: np. where(pd. isnull(a), b, a) 
Out[69]: array([ 0., 2.5, 2. , 3.5, 4.5, nan]) 


8.2 


数据 转换 


除了 数据 合并 以 外 ,数据 处 理工 作 还 包括 对 数据 进行 转换 。 具 体 的 工作 包括 对 数据 进 
行 过 滤 、 清 理 以 及 其 他 的 转换 工作 。 


8.2.1 移 除 重复 数据 


在 数据 转换 工作 中 ,最 常见 的 是 移 除 重复 数据 的 工作 。 通 常 来 说 ,数据 集中 总 会 出 现 重 
复 的 数据 行 。 下 面 就 是 一 个 例子 。 


In [4]: data = pd.DataFrame(('kl':['one'] * 3 + ['two'] * 4, 


'k2':[1, 1, 2, 3, 3, 4, 4]}) 


In [5]: data 
Out[5]: 
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ki 


oUn^&uUNMNn-^o 
d 
z 
o 


Wn 区 


[7 rows x 2 columns] 


上 面 的 DataFrame 中 存在 6 个 数据 行 ,其 中 一 部 分 是 重复 的 。 通 常 来 说 ,可 以 通过 
duplicated 方法 返回 一 个 布尔 型 Series, 每 行 中 的 布尔 值 表示 该 行 是 否 是 重复 的 。 


In [6]: data.duplicated() 
Out[6]: 

0 False 

1 True 

2 False 

3 False 

4 True 

5 False 

6 True 

dtype: bool 


从 上 面 的 结果 可 以 看 出 ,第 1.4.6 行 不 是 第 一 次 出 现 的 数据 行 , 在 后 面 的 去 重工 作 中 可 
以 考虑 去 除 。 如 果 想 要 直接 去 除数 据 中 的 重复 行 ,可 以 考虑 使 用 drop_duplicates 方法 , 它 


用 于 返回 一 


In [7]: 


Out[7]: 


kl 


um wm 
o 
5 
o 


[4 rows 


个 移 除了 重复 行 的 DataFrame。 


data.drop duplicates() 


k2 


& WwW N 


x 2 columns] 


上 面 的 结果 显示 ,重复 的 数据 行 已 经 被 移 除 。 当 然 ,前 面 介 绍 的 这 两 种 方法 默认 会 判断 
全 部 列 。 在 实际 的 数据 处 理 案例 中 ,可 能 只 希望 根据 某 一 列 (例如 kl 列 ) 来 过 滤 重 复 项 。 


In [8]: 
[9]: 


Out[9]: 
ki 


0 
1 
2 
3 


data['vi'] = range(7) 


data 


wneer 


wne o 
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4 tw 3 4 
5 two 4 5 
6 two 4 6 


[7 rows x 3 columns] 


In [10]: data. drop duplicates(['k1']) 
Out[10]: 
kl k2 vl 
0 œo 1 0 
3 wo 3 3 


[2 rows x 3 columns] 

上 面 的 方法 中 ,通过 drop_duplicates(['kl']) 可 以 将 kl 中 的 重复 值 去 掉 。 此 外 ， 
duplicated 和 drop duplicates 还 可 以 通过 多 列 的 联合 取 值 来 筛选 数据 ,并 且 通 过 take last 
True 保留 重复 数据 中 的 最 后 一 个 。 


In [11]: data.drop duplicates(['kl', 'k2'], take last = True) 


Out[11]: 
kl k2 vil 
1 oe 1 1 
2 oe 2 2 
4 tw 3 4 
6 tw 4 6 


[4 rows x 3 columns] 


8.2.2 ”利用 函数 进行 数据 转换 


在 对 数据 集 进 行 转换 时 ,有 时 需要 根据 数组 、Series 或 DataFrame 列 中 的 值 来 实现 转换 
工作 。 我 们 来 看 看 下 面 这 组 数据 : 


In [12]: data = pd.DataFrame(('food':[ 'bacon', 'pulled pork', 'bacon', 'Pastrami', 'corned beef', 
'Bacon', 'pastrami', 'honey ham', 'nova lox'], 'ounces':[4, 3, 12, 6, 7.5, 8, 3, 5, 6]]) 


In [13]: data 
Out[13] : 
food ounces 

0 bacon 4.0 
1 pulledpork 3.0 
2 bacon 12.0 
3 Pastrami 6.0 
4 cornedbeef 7.5 
5 Bacon 8.0 
6 pastrami 3.0 
7  honeyham 5.0 
8 novalox 6.0 


[9 rows x 2 columns] 
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此 时 ,如 果 想 要 添加 一 列表 示 动 物 类 型 的 列 ,需要 先 编写 一 个 肉 类 到 动物 的 映射 ; 


In [14]: meat to animal = ( 
"bacon': 'Pig', 
'pulled pork': 'pig', 
'pastrami': 'Cow', 
'corned beef': 'cow', 
'honey ham': 'pig', 
sce 'nova lox': 'salmon' 
"m 
Series 的 map 方法 可 以 接收 一 个 函数 或 含有 映射 关系 的 字典 型 对 象 , 但 是 这 里 有 一 个 
小 问题 , 即 有 些 肉 类 的 首 字母 大 写 了 ,而 另 一 些 则 没有 。 因 此 ,还 需要 将 各 个 值 转换 为 小 写 。 


In [15]: data['animal'] = data[ 'food'].map(str. lower).map(meat_to_animal) 


In [16]: data 
Out[16]: 
food ounces animal 
bacon 4.0 pig 
pulled pork 3.0 pig 
bacon 12.0 pig 
Pastrami 6.0 cow 
corned beef 7.5 cow 
Bacon 8.0 pig 
pastrami 3a. cow 
honey ham 5.0 pig 
novalox 6.0 salmon 


o-320U0^5&U0NMN^o0 


[9 rows x 3 columns] 
当然 ,也 可 以 传人 一 个 函数 ,完成 全 部 这 些 工作 。 
In [17]: data['food'].map(lambda x: meat_to_animal[x. lower()]) 


out[17] : 
pig 


0 
1 
2 
B 
4 cow 
5 
6 
3 
8 


salmon 
Name: food, dtype: object 


值得 说 明 的 是 ,使 用 map 是 一 种 实现 元 素 级 转换 以 及 其 他 数据 清理 工作 的 常用 方式 。 
8.2.3 BHUR 
fillna 方法 填充 缺失 数据 可 以 看 作 值 替换 的 一 种 特殊 情况 。 在 通常 的 值 蔡 换 时 ， 








利 
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往往 采用 replace 方 法 , 它 提 供 了 一 种 实现 蔡 换 功能 的 简单 .灵活 的 方式 中。 我们 来 看 看 下 
面 这 个 Series: 





In [18]: data = pd.Series([1., - 999, 2., -999, —1000., 3.]) 


In [19]: data 
Out[19]: 

0 1 

1  -999 

2 2 

3  -999 

4 一 1000 

5 3 


dtype: float64 


一 999 这 个 值 是 一 个 表示 缺失 数据 的 标记 值 。 要 将 其 替换 为 Pandas 能 够 理解 的 NA 
值 ,我们 可 以 利用 replace 来 产生 一 个 新 的 Series: 


In [20]: data. replace( — 999, np. nan) 


Out[20]: 

0 1 
1 NaN 
2 2 
3 NaN 
4 -1000 
5 3 


dtype: float64 


当然 ,如 果 和 希望 一 次 性 替换 多 个 值 (例如 ,一 999 和 一 1000 替换 为 NaN) ,可 以 传人 一 个 
由 待 替 换 值 组 成 的 列表 以 及 一 个 蔡 换 值 。 


In [21]: data.replace([ - 999, - 1000], np. nan) 
Out[21]: 

0 1 

1 NaN 

2 2 

3 NaN 

4 NaN 

5 3 

dtype: float64 


如 果 希 望 对 不 同 的 值 进 行 不 同 的 蔡 换 (例如 ,一 999 蔡 换 为 NaN, — 1000 替换 为 0), 则 
传人 一 个 由 替换 关系 组 成 的 列表 即 可 。 


In [22]: data.replace([ —999, — 1000], [np.nan, 0]) 
0ut[22]: 
pi 
NaN 
2 
NaN 
0 


0 
1 
2 
3 
4 
5 3 
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dtype: float64 


8.2.4 重 命名 轴 索 引 
ER Series 中 的 值 一 样 , 轴 标 签 也 可 以 通过 函数 进行 转换 ,从 而 得 到 一 个 新 对 象 。 轴 还 可 
以 被 修改 ,而 无 须 新 建 一 个 数据 结构 。 接 下 来 看 看 下 面 这 个 简单 的 例子 外。 
In [24]: data = pd.DataFrame(np. arange(12). reshape((3, 4)), 
index- ['Ohio', 'Colorado', 'New York'], 
columns - ['one', 'two', 'three', 'four']) 
JR Series 一 样 , 轴 标 签 也 有 一 个 map 方法 : 


In [25]: data. index. map(str. upper) 
Out[25]: array(['OHIO', 'COLORADO', 'NEW YORK'], dtype = object) 


可 以 将 其 赋值 给 index, 这 样 就 可 以 对 DataFrame 进行 就 地 修改 了 。 


In [26]: data. index = data. index. map(str. upper) 


In [27]: data 
0ut[27]: 

one two three four 
OHIO 0 1 2 3 
COLORADO 4 5 6 1! 


NEW YORK 8 9 10 TT 


[3 rows x 4 colunns] 
如 果 想 要 创建 数据 集 的 转换 版 (而 不 是 修改 原始 数据 ) ,比较 常用 的 方式 是 rename, 


In [28]: data. rename( index = str.title，columns = str.upper) 


Out[28]: 

ONE TWO THREE FOUR 
Ohio 0 1 2 3 
Colorado 5 6 7 


4 
New York 8 9 10 11 
[3 rows x 4 columns] 
特别 说 明 一 下 ,rename 可 以 结合 字典 型 对 象 实现 对 部 分 轴 标 签 的 更 新 。 


In [31]: data. rename( index = {'OHIO': 'INDIANA'}, 
columns = ('three': 'peekaboo!]) 


Out[31]: 

one two peekaboo four 
INDIANA 0 1 2 3 
COLORADO 4 5 6 7 
NEW YORK 8 9 10 11 


[3 rows x 4 columns] 


在 这 个 案例 中 ,rename 帮 我 们 实现 了 : 复制 DataFrame 并 对 其 索引 和 列 标签 进行 赋 
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值 。 如 果 和 希望 修改 某 个 数据 集 , 可 以 通过 传人 inplace- True 实现 。 
In [32]: # 总 是 返回 DataFrame 的 引用 


In [33]: | = data. rename( index = ('OHIO': 'INDIANA'), inplace = True) 
In [34]: data 
Out[34]: 
one two three four 
INDIANA 0 i: 2 3 
COLORADO 4 5 6 yl 


NEW YORK 8 9 10 11 


[3 rows x 4 columns] 


8.2.5 离散 化 数据 


为 了 便于 分 析 ,连续 数据 常常 被 离散 化 。 假 设 有 一 组 人 员 数 据 ,希望 将 它们 划分 为 不 同 
IAE e HO : 


In [35]: ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32] 


如 果 想 要 将 这 些 数据 划分 为 “18 一 25”“26 一 35”“35 一 60" 以 及 “60 以 上 ” 几 个 bin, Tf 
以 使 用 Pandas 的 cut 函数 。 


In [36]: bins = [18, 25, 35, 60, 100] 


" 


In [37]: cats = pd.cut(ages, bins) 

In [38]: cats 

Out[38] : 
(18, 25 
(18, 25 
(18, 25 
(25,535 
(18, 25 
(18, 25 
(35, 60 
(25,35 
(60, 100 
(35, 60 
(35, 60 
(257935 

Levels (4): Index(['(18, 25]', '(25, 35]', '(35, 60]', '(60, 100]'], dtype = object) 


Pandas 返回 的 是 一 个 特殊 的 Categorical 对 象 ,可 以 将 其 看 作 一 组 表示 bin 名 称 的 字符 
串 。 实 际 上 ,这 个 对 象 含有 一 个 表示 不 同 分 类 名 称 的 levels 数组 以 及 一 个 为 年 龄 数据 进行 
标号 的 labels 属性 。 


In [39]: cats. labels 
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Out[39]: array([0, 0, 0, 1, 0, 0, 2, 1, 3, 2, 2, 1]) 


In [40]: cats. levels 
Out[40]: Index([u'(18, 25]', u'(25, 35]', u'(35, 60]', u'(60, 100]'], dtype = 'object') 


In [41]: pd. value counts(cats) 
Out[41]: 

(18,25] 5 

(35, 60] 3 

(25,35] 3 

(60,100] 1 

dtype: int64 


跟 数学 中 的 区 间 这 个 概念 相同 , 圆 括号 表示 不 包括 , 方 括号 表示 包括 。 对 于 区 间 的 左右 
两 边 用 圆 括号 还 是 方 括号 ,可 以 通过 right= False 进行 修改 。 


In [42]: pd. cut(ages，[18，26，36，61，100]，right = False) 
Out[42]: 

18, 26) 

18, 26) 

18, 26) 

26, 36) 

18, 26) 

18, 26) 

36, 61) 

26, 36) 

[61, 100) 

36, 61) 

36, 61) 

26, 36) 

Levels (4): Index(['[18, 26)', '[26, 36)', '[36, 61)', '[61, 100)'], dtype= object) 


当然 ,也 可 以 设置 自己 的 bin 名 称 ,将 labels 选项 设置 为 一 个 列表 或 数组 。 


In [43]: group names = ['Youth', 'YoungAdult', 'MiddleAged', 'Senior'] 





In [44]: pd.cut(ages, bins, labels - group names) 
Out[44]: 
Youth 
Youth 
Youth 
YoungAdult 
Youth 
Youth 
MiddleAged 
YoungAdult 
Senior 
MiddleAged 
MiddleAged 
YoungAdult 
Levels (4): Index(['Youth', 'YoungAdult', 'MiddleAged', 'Senior'], dtype = object) 
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如 果 向 cut 传人 的 是 bin 的 数量 而 不 是 确切 的 bin 边界 , 则 它 会 根据 数据 的 最 小 值 和 最 
大 值 计算 等 长 bn。 在 下 面 这 个 例子 中 ,我们 将 一 些 均匀 分 布 的 数据 分 成 4 组 。 


In [45]: data = np.random.rand(20) 


In [46]: pd.cut(data, 4, precision- 2) 
Out[46]: 
(0.037, 0.26 
(0.037, 0.26 
(0.48, 0.7 
(0.7, 0.92] 
(0.037, 0.26 
(0.037, 0.26 
(0.7, 0.92 
(0.7, 0.92 
(0.037, 0.26 
(0.26, 0.48 
(0.26, 0.48 
(0.26, 0.48 
(0.037, 0.26 
(0.26, 0.48 
(0.48, 0.7 
(0.7, 0.92 
(0.037, 0.26 
(0.7, 0.92 
(0.037, 0.26 
(0.037, 0.26 
Levels (4): Index(['(0.037, 0.26]', '(0.26, 0.48]', '(0.48, 0.7]', 
'(0.7, 0.92]'], dtype = object) 


qcut 是 一 个 类 似 于 cut 的 函数 , 它 可 以 根据 样本 分 位 数 对 数据 进行 bin 划分 。 根 据 数 
据 的 分 布 情况 ,cut 可 能 无 法 保证 各 个 bin 中 含有 相同 数量 的 数据 点 。 而 qcut 由 于 使 用 的 
是 样本 分 位 数 ,因此 可 以 得 到 大 小 基本 相等 的 bin。 


In [48]: data = np.random.randn(1000) # 正 态 分 布 


loeo 





In [49]: cats = pd.qcut(data, 4) # 按 四 分 位 数 进行 分 隔 


In [50]: cats 
Out[50]: 
[:3:7636,50:731] 
(0.647, 3.531] 
[-3.636, -0.717] 
[—31636, —0:7171 
p3:7636, — 0:711] 
(0.647, 3.531] 
[=3:636, 0:717] 
(20:717, 00323] 
(-0.717, — 0.0323] 
(0.647, 3.531] 
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73:636, —0:717] 
z:0:717,.—:0:0323] 
(0.647, 3.531] 


-3.636, -0.717] 
-3.636, -0.717] 
(0.647, 3.531] 
(70.717, - 0.0323] 
(0.647, 3.531] 
-3.636, -0.717] 
-3.636, -0.717] 
( — 0.0323, 0.647] 
-3.636, -0.717] 
(70.717, - 0.0323] 
(70.717, - 0.0323] 
( — 0.0323, 0.647] 
(0.647, 3.531] 
Levels (4): Index(['[ —3.636, —0.717]', '(- 0.717, -0.0323]', 
*( — 0.0323, 0.647]', '(0.647, 3.531]'], dtype = object) 





Length: 1000 


In [51]: pd. value counts(cats) 
Out[51]: 

(70.717, -0.0323] 250 

( - 0.0323, 0.647] 250 


(0.647, 3.531] 250 
[= 3-636) =0.717] 250 
dtype: int64 


JR cut — FÉ ,我 们 也 可 以 设置 自 定 义 的 分 位 数 (0 一 1 之 间 的 数值 ,包含 端点 ) 。 


In [52]: pd. qcut(data, [0, 0.1, 0.5, 0.9, 1.]) 
Out[52]: 
t=1.323, -0.0323 
人 = 0.03237 1.234 
kr 
[5:3:636;5— 10323 
[3636215323 
( — 0.0323, 1.234 
th 5:050323 
(1510323, 5—1050323 
站 二 3237 0:0323 
(2:234, 3.531 
(=1.323; = 0:0323 
(1—:19323:12:950323 
(— 0.0323, 1.234 


1523263650 10323 
(1515323:1:020323 

(0.0323, 1.234 
(11:323, -0:0323 





( - 0.0323, 1.234] 
[=3.636; — 1:323] 
C=1.323, =0:0323) 
( - 0.0323, 1.234] 
(=1:323, —0:0323] 
(1:323, 020323] 
(1.323, —0:0323] 
(=0.0323;,. 1.234] 
(70.0323, 1.234] 


Levels (4): Index(['[ —3.636, —1.323]', '(- 1.323, -0.0323]', 
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*( — 0.0323, 1.234]', '(1.234, 3.531]'], dtype = object) 


Length: 1000 


8.2.6 检测 异常 值 


异常 值 的 过 滤 或 变换 运算 在 很 大 程度 上 其 实 就 是 数组 运算 。 下 面 首 先 来 看 一 个 含有 正 


态 分 布 数据 的 DataFramer] 。 


In [53]: np. random. seed(12345) 


In [54]: data = pd. DataFrame(np. random. randn(1000, 4)) 


In [55]: data.describe() 


Out[55] : 

0 1 2 3 
count 1000.000000 1000.000000 1000.000000 1000.000000 
mean — 0.067684 0.067924 0.025598 — 0.002298 
std 0.998035 0.992106 1.006835 0.996794 
min — 3.428254 — 3.548824 —- 3.184377 — 3.745356 
255 — 0.774890 — 0.591841 — 0.641675 — 0.644144 
50% — 0.116401 0.101143 0.002073 — 0.013611 
75% 0.616366 0.780282 0.680391 0.654328 
max 3.366626 2.653656 3.260383 3.927528 


[8 rows x 4 columns] 


下 面 找 出 某 列 中 绝对 值 大 小 超过 3 的 值 。 


In [56]: col = data[3] 


In [57]: col[np.abs(col) > 3] 
out[57] : 

97 3.927528 

305 -3.399312 

400 -3.745356 

Name: 3, dtype: float64 


要 选 出 全 部 含有 “超过 3 或 一 3 的 值 ?的 行 ,可 以 利用 布尔 型 DataFrame 及 any 方法 。 


In [58]: data[ (np. abs(data) > 3).any(1)] 
Out[58]: 
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0 T 2 3 
5 — 0.539741 0.476985 3.248944  — 1.021228 
97 — 0.774363 0.552936 0.106061 3.927528 
102 -0.655054  — 0.565230 3.176873 0.959533 
305 -2.315555 0.457246 -0.025907 -3.399312 
324 0.050188 1.951312 3.260383 0.963301 
400 0.146326 0.508391 -0.196713  — 3.745356 
499 -0.293333 -0.242459 -3.056990 1.918403 
523 -3.428254 -0.296336 -0.439938 -0.867165 
586 0.275144 1.179227 -3.184377 1.369891 
808 -0.362528 -3.548824 1.553205  — 2.186301 
900 3.366626 - 2.372214 0.851010 1. 332846 


[11 rows x 4 columns] 


根据 这 些 条 件 , 可 以 轻松 地 对 值 进行 设置 。 下 面 的 代码 将 值 限 制 在 区 间 一 3 一 3 以 内 。 


In [59]: data[np.abs(data) > 3] = np.sign(data) * 3 


In [60]: data. describe() 


Out[60]: 
0 1 2 

count 1000.000000 1000.000000 1000.000000 
mean — 0. 067623 0. 068473 0.025153 
std 0.995485 0.990253 1.003977 
min = 3.000000 — 3.000000 — 3.000000 
255 — 0.774890 — 0.591841 — 0.641675 
50% — 0.116401 0.101143 0.002073 
75% 0.616366 0.780282 0.680391 
max 3.000000 2.653656 3.000000 


[8 rows x 4 columns] 


需要 说 明 的 是 ,np. sign 这 个 函数 返回 的 是 一 


符号 。 
8.2.7 排列 和 随机 采样 


利用 numpy. random. permutation 函数 可 以 实现 对 Series 或 DataFrame 的 排列 工作 
(Permuting, 随 机 重 排序 )。 通 过 需要 排列 的 轴 的 长 度 调用 permutation, 可 产生 一 个 表示 新 


顺序 的 整数 数组 中 。 


3 

1000. 000000 
— 0. 002081 
0.989736 

— 3.000000 
— 0.644144 
— 0.013611 
0.654328 
3.000000 


个 由 1 和 一 1 组 成 的 数组 ,表示 原始 值 的 


In[61]: df = pd.DataFrame(np.arange(5 * 4).reshape(5, 4)) 


In [62]: sampler = np. random. permutation(5) 


In [63]: sampler 
Out[63]: array([1, 0, 2, 3, 4]) 
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然后 ,可 以 采用 take 函数 操作 来 完成 原 数 组 的 行 调换 。 


In [64]: df 
Out[64]: 

0 2 3 
|: —* 2 3 
1 4 a R brc 
0 5105131 
3.12 13 14 15 
4 36.17. 18. 19 


[5 rows x 4 columns] 


In [65]: df. take(sampler) 


Out[65]: 

0 1. 2 3 
rers 7 
0:90 12:3 
-| TON TT 
3 2 13 14 15 
4 36 17 18 19 


[5 rows x 4 columns] 


如 果 不 想 用 蔡 换 的 方式 选取 随机 子 集 , 则 可 以 使 用 permutation; 从 permutation 返回 
的 数组 中 切 下 前 A 个 元 素 , 其 中 4 为 期 望 的 子 集 大 小 。 
In [66]: df. take(np. random. permutation(len(df))[:3]) 
Out[66]: 
0 1 22003 
1154 UE- 0:6: 27 


auta 1351415 
4016017519. 19 


[3 rows x 4 columns] 


要 通过 替换 的 方式 产生 样本 ,最 快 的 方式 是 通过 np. random. randint 得 到 一 组 随机 
整数 。 


In [67]: bag = np.array([5, 7, -1, 6, 4]) 
In [68]: sampler = np.random.randint(0, len(bag), size- 10) 


In [69]: sampler 
Out[69]: array([4, 4, 2, 2, 2, 0, 3, 0, 4, 1]) 


In [70]: draws = bag.take(sampler) 


In [71]: draws 
Out[71]: array([ 4, 4, —1, = - 1, 5, 6, 5, 4, 7]) 
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8.2.8 Wet 


一 种 常用 于 统计 建 模 的 转换 方式 是 : 将 分 类 变量 转换 为 哑 变 量 。 如 果 DataFrame 的 某 
一 列 中 含有 A 个 不 同 的 值 , 则 可 以 派生 出 一 个 & 列 矩阵 或 DataFrame( 其 值 全 为 1 和 0)。 
Pandas 有 一 个 get_dummies 函数 可 以 实现 该 功能 外。 拿 之 前 的 一 个 例子 来 说 : 


In [72]: df = pd.DataFrame(('key': ['b', 'b', 'a', 'c', 'a', 'b'], 


'datal': range(6)]) 


In [73]: pd.get dummies(df[ 'key']) 


Out[73] : 


a 


um mwmbhPoe 
ororoo 


b 


Poeoeooeoerm rm 


ooecooon 


[6 rows x 3 columns] 


有 时 候 , 我 们 可 能 想 给 哑 变 量 DataFrame 的 列 加 上 一 个 前 级 .以便 能 够 跟 其 他 数据 进 
行 合 并 。get_dummies 的 prefix 参数 可 以 实现 该 功能 。 


In [74]: dummies 


= pd.get dummies(df['key'], prefix= 'key') 


In [75]: df with dummy = df[['datal']]. join(dummies) 


In [76]: df with dummy 


Out[76]: 


datal key a key b key c 


um eewnbhPo 


0 


wm mw N P 


0 


ororo 


1 


ooon 


0 


ooroo 


[6 rows x 4 columns] 


如 果 DataFrame 中 的 某 行 同 属于 多 个 分 类 ,数据 处 理 的 工作 会 比较 复杂 。 下 面 以 
MovieLens 1MB 数据 集 为 例 。 


In [77]: mnames 
In [78]: movies 


['movie id', 'title', 'genres'] 
pd.read table('movies.dat', sep- '::', header = None, 


... names = mnames) 


In [79]: movies[ :10] 
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movie id title genres 


0 Toy Story(1995) ^ Animation|Children's|Comedy 
1 2 Jumanji(1995)  Adventure|Children's|Fantasy 
2 3 Grumpier Old Men( 1995) Comedy | Romance 
3 4 Waiting to Exhale(1995) Comedy | Drama 
4 5 Father of the Bride Part 11(1995) Comedy 
5 6 Heat(1995) Action|Crime|Thriller 
6 7 Sabrina(1995) Comedy | Romance 
7 8 Tom and Huck(1995) Adventure |Children's 
8 9 Sudden Death(1995) Action 
9 10 GoldenEye(1995) Action|Adventure|Thriller 


为 每 个 genre 添加 哑 变 量 就 需要 做 一 些 数 据 规整 操作 。 首 先 ,从 数据 集中 抽取 出 不 同 
的 genre 值 : 


In [80]: genre iter = (set(x.split('|')) for x in movies.genres) 

In [81]: genres = sorted(set.union( *genre iter)) 

现在 ,从 一 个 初始 化 为 全 零 的 DataFrame 开始 构建 哑 变 量 DataFrame: 

In [82]: dummies = DataFrame(np.zeros((len(movies), len(genres))), columns = genres) 
接 下 来 ,迭代 每 一 部 电影 并 将 dummies 各 行 的 项 设置 为 1: 


In [83]: for i, gen in enumerate(movies. genres) : 
... dummies. ix[ i, gen.split('|')] = 1 


然后 ,再 将 其 与 movies 合并 起 来 : 
In [84]: movies windic = movies. join(dummies. add_prefix( 'Genre_')) 


In [85]: movies_windic. ix[0] 


Out[85]: 

movie_id 1 
title Toy Story (1995) 
genres Animation|Children's|Comedy 


Genre Action 
Genre Adventure 
Genre Animation 
Genre Children's 
Genre Comedy 
Genre Crime 
Genre Documentary 
Genre Drama 
Genre Fantasy 
Genre Film- Noir 
Genre Horror 
Genre Musical 
Genre Mystery 
Genre Romance 
Genre Sci- Fi 
Genre Thriller 


ooooocoocoocooncncoco 
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Genre_War 0 
Genre Western 0 
Nane: 0 


8.3 字符 串 操作 


Python 能 够 成 为 流行 的 数据 处 理 语言 ,部 分 原因 是 其 简单 易 用 的 字符 串 和 文本 处 理 功 
能 。 大 部 分 文本 运算 都 成 为 字符 串 对 象 的 内 置 方法 。 对 于 更 为 复杂 的 模式 匹配 和 文本 操 
作 , 则 可 能 需要 用 到 正则 表达 式 。Pandas 在 文本 处 理 方面 ,对 内 置 方法 进行 了 加 强 , 能 够 对 
数组 数据 应 用 字符 串 表 达 式 和 正则 表达 式 , 而 且 能 处 理 缺 失 数据 吕 。 


8.3.1 内 置 字符 串 方法 

对 于 大 部 分 字符 串 处 理应 用 而 言 ,内 置 的 字符 串 方法 已 经 能 够 满足 要 求 了 。 例 如 ,以 去 
号 分 隔 的 字符 串 可 以 用 split 拆 分 成 数 段 ; 

In [81]: val = 'a,b, guido' 


In [82]: val. split(',') 

Out[82]: ['a', 'b', 'guido'] 

split 常常 结合 strip( 用 于 修剪 空白 符 ) 一 起 使 用 ,删除 字符 串 中 的 无 意义 的 空白 字符 。 

In [83]: pieces = [x.strip() for x in val. split(', ')] 

In [84]: pieces 

Out[84]: ['a', 'b', 'guido'] 

此 外 ,利用 加 法 ,可 以 将 这 些 子 字符 串 以 双 冒 号 分 隔 符 的 形式 连接 起 来 : 

In [88]: first, second, third = pieces 

In [09]: first + "^+ second + "s+ third 

Out[89]: 'a::b::guido' 

然而 ,这 种 方式 并 不 是 很 实用 。 一 种 更 快 更 符合 Python 风格 的 方式 是 ,采用 字符 串 
“::” 的 join 方法 传人 一 个 列表 或 元 组 : 

In [90]: '::'. join(pieces) 

Out[90]: 'a::b: :guido" 

另 一 类 方法 关注 的 是 子 串 定 位 。 检 测 子 串 的 最 佳 方式 是 利用 Python 的 in 关键 字 ( 当 
然 还 可 以 使 用 index 和 find) : 


In [92]: 'guido' in val 
Out[92]: True 


In [93]: val. index(', ') 
Out[93]: 1 
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In [95]: val.find(':') 

Out[95]: -1 

注意 find 和 index 的 区 别 : 如 果 找 不 到 字符 串 ,index 将 会 引发 一 个 异常 (而 不 是 返回 
=); 


In [96]: val. index(':') 


ValueError Traceback (most recent call last) 
/ home/wss/progran/python/« ipython - input — 96 — 280f8b2856ce > in < module >( ) 
————» val, index(':') 


ValueError: substring not found 

此 外 ,还 有 一 个 count 函数 , 它 可 以 返回 指定 子 串 的 出 现 次 数 。 

In [97]: val. count(', ') 

Out[97]: 2 

replace 用 于 将 指定 模式 替换 为 另 一 个 模式 。 当 然 , 它 也 常常 用 于 删除 模式 , 即 传人 空 
字符 串 。 


In [98]: val.replace(',', '::') 
Out[98]: 'a::b:: guido" 


In [99]: val.replace(',', '') 
Out[99]: 'ab guido' 


常见 的 Python 内 置 方法 如 表 8-2 所 示 。 
表 8-2 字符 串 操作 的 常用 函数 
T 数 解释 说明 
objs 参与 连接 的 列表 或 字典 , 且 列 表 或 字典 里 的 对 象 是 pandas 数据 类 型 ,唯一 必须 给 定 的 参数 
axis 一 0 | 指明 连接 的 轴 向 ,0 是 纵 轴 ,1 是 横 轴 ,默认 是 0 
join 'inner' (Z$) , 'outer'( 并 集 ) ,默认 是 'outer' 指 明 轴 向 索引 的 索引 是 交集 还 是 并 集 
join axis | 指明 用 于 其 他 n 一 1 条 轴 的 索引 (层次 化 索引 , 某 个 轴 向 有 多 个 索引 ) ,不 执行 交 并 集 


与 连接 对 象 有 关 的 值 ,用 于 形成 连接 轴 向 上 的 层次 化 索引 (外 层 索 引 ) ,可 以 是 任意 值 的 列表 
或 数组 \ 元 组 数据 ,数组 列表 (如 果 将 levels 设置 成 多 级 数组 的 话 ) 














keys 








8.3.2 正则 表达 式 


正则 表达 式 提供 了 一 种 灵活 的 在 文本 中 搜索 或 匹配 字符 串 模 式 的 方式 , 它 根据 正则 表 
达 式 语言 编写 字符 串 。Python 内 置 的 re 模块 负责 对 字符 串 应 用 正则 表达 式 咏 。 

re 模块 的 函数 可 以 分 为 三 个 大 类 : 模式 匹配 , 蔡 换 , 拆 分 。 当 然 ,它们 之 间 是 相辅相成 
的 。 一 个 regex 描述 了 需要 在 文本 中 定位 的 一 个 模式 , 它 可 以 用 于 许多 目的 。 下 面 先 来 看 
一 个 简单 的 例子 : 假设 想 要 拆 分 一 个 字符 串 , 分 隔 符 为 数量 不 定 的 一 组 空白 符 ( 制 表 符 、 空 
格 ,换行 符 等 ) ,描述 一 个 或 多 个 空白 符 的 regex 是 \s 十 : 
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In [100 


In [101 


In [102 
Out[102 


: import re 
: text = "foo bar\t baz \tqux" 


: re. split('\s+', text) 
: ['£oo', 'bar', 'baz', 'qux'] 


调用 re. splitC\s+', text) 时 ,正则 表达 式 会 先 被 编译 ,然后 再 在 text 上 调用 其 split 7r 


法 。 我 们 可 
In [103 
In [104 
Out[104 
如 果 只 


In [105 
Out[105 
如 果 打 
这 样 将 可 以 


以 用 re. compile 自己 编译 regex, 以 得 到 一 个 可 重用 的 regex 对 象 : 

: regex = re.compile(\s+') 

: regex. split(text) 

: ['foo', 'bar', ‘baz', 'qux'] 

希望 得 到 匹配 regex 的 所 有 模式 , 则 可 以 使 用 findall 方法 : 

: regex. findall(text) 

pe NEU NEL] 

算 对 许多 字符 串 应 用 同一 条 正则 表达 式 ,建议 通过 re. compile 创建 regex 对 象 ， 
节省 大 量 的 CPU 时 间 。 





match 和 search 跟 findall 功能 类 似 。findall 返回 的 是 字符 串 中 所 有 的 匹配 项 , 而 
search 则 只 返回 第 一 个 匹配 项 。match 更 加 严格 , 它 只 匹配 字符 串 的 首部 。 来 看 一 个 小 例 
子 , 假 设 有 一 段 文本 以 及 一 条 能 够 识别 大 部 分 电子 邮件 地 址 的 正则 表达 式 : 


In [106]: text = """Dave dave@google. com 


In [107 
In [108 
In [109 


对 text 


In [116 
Out[116 


Steve steve(Z gnail.com 
Rob rob@gmail. com 
Ryan ryan@ yahoo. com 


: pattern = r'[A-20-9. & *-]* (9[A- 20-9. - ] *V. [A- Z](2,4)" 
: # re. IGNORECASE 的 作用 是 使 用 正则 表达 式 对 大 小 写 不 敏感 
: regex = re.compile(pattern, flags = re. IGNORECASE) 


使 用 findall 将 得 到 一 组 电子 邮件 地 址 : 


: regex. findall(text) 
: ['dave@google. com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com'] 


search 返回 的 是 文本 中 第 一 个 电子 邮件 地 址 (以 特殊 的 匹配 项 对 象形 式 返 回 )。 对 于 上 


面 那 个 rege 


In [117 


In[118 
Out[118 


x', 匹 配 项 对 象 只 能 告诉 我 们 模式 在 原 字符 串 中 的 起 始 和 结束 位 置 。 


:m = regex. search(text) 


Dm 
: « sre. SRE Match at 0x9dc81e0 > 
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In [119]: text[m. start() :m. end()] 
Out[119]: 'dave(àgoogle. com' 


regex. match 则 将 返回 None, 因 为 它 只 匹配 出 现在 字符 串 开 头 的 模式 。 


In [120]: print regex.match(text) 
None 


另外 ,还 有 一 个 sub 方法 。 它 会 将 匹配 到 的 模式 蔡 换 为 指定 字符 串 ,并 返回 所 得 到 的 新 
字符 串 。 

In [121]: print regex. sub( 'REDACTED', text) 

Dave REDACTED 

Steve REDACTED 


Rob REDACTED 
Ryan REDACTED 


假设 我 们 不 仅 想 要 找 出 电子 邮件 地 址 ,还 想 将 各 个 地 址 分 成 三 个 部 分 : 用 户 名 、 域 名 以 
及 域 后 级。 要 实现 此 功能 ,只 需 将 待 分 段 的 模式 的 各 部 分 用 圆 括号 包 起 来 即 可 。 


In [122]: pattern = r'([A-Z0-9._% +-]+)@([A-20-9.—]+)\.([A-2]{2,4})" 
In [123]: regex = re.compile(pattern, flags = re. IGNORECASE) 


由 这 种 正则 表达 式 所 产生 的 匹配 项 对 象 ,可 以 通过 其 groups 方法 返回 一 个 由 模式 各 有 段 
组 成 的 元 组 : 


In [124]: m = regex. match( 'wesm(2 bright. net') 


In [125]: m.groups() 
0Out[125]: ('wesm', 'bright', 'net') 


对 于 带 有 分 组 功能 的 模块 ,findall 会 返回 一 个 元 组 列表 : 





In [126]: regex. findall(text) 

Out[126]: 

[('dave', 'google', 'con'), 

('steve', 'gmail', 'com'), 

('rob', 'gnail', 'com'), 

("ryan', 'yahoo', 'com')] 

sub 还 能 通过 诸如 \1、\2 之 类 的 特殊 符号 访问 各 匹配 项 中 的 分 组 : 
In [127]: print regex. sub(r'Username: \1, Domain: \2, Suffix: \3', text) 
Dave Username: dave, Domain: google, Suffix: com 

Steve Username: steve, Domain: gmail, Suffix: com 


Rob Username: rob, Domain: gmail, Suffix: com 
Ryan Username: ryan, Domain: yahoo, Suffix: com 


对 上 面 那个 电子 邮件 的 正则 表达 式 做 一 点 儿 小 变动 : 为 各 个 匹配 分 组 加 上 一 个 名 称 ， 
如 下 所 示 。 


regex = re.compile(r""" 
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MZ 
(?P«username»[A- 20-9. & +-]+) 
e 
(?P«domain»[A- 20-9. - ] * ) 
V. 


(?P « suffix2[A- Z] (2, 4)) """, flags = re. IGNORECASE | re. VERBOSE) 

由 这 种 正则 表达 式 所 产生 的 匹配 项 对 象 可 以 得 到 一 个 简单 易 用 的 带 有 分 组 名 称 的 
FH, 

In [128]: m = regex. natch( 'wesm@bright. net') 


In [129]: m.groupdict() 

Out[129]: ('domain': 'bright', 'suffix': 'net', 'username': 'wesm'} 
表 8-3 正则 表达 式 的 相关 常用 函数 

函数 解释 说 明 














findall/finditer | findall 方法 能 够 以 列表 的 形式 返回 能 匹配 的 子 串 

e 尝试 从 字符 串 的 起 始 位 置 匹 配 一 个 模式 ,如 果 不 是 起 始 位 置 匹配 成 功 的 话 ,match() 
就 返回 none 

——À 扫描 整个 字符 串 并 返回 第 一 个 成 功 的 匹配 , 如 果 匹 配 成 功 则 返回 一 个 匹配 的 对 象 ， 
否则 返回 None 

split Break string into pieces at each occurrence of pattern. 
对 于 输入 的 一 个 字符 串 ,利用 正则 表达 式 ( 的 强大 的 字符 串 处 理 功能 ), 去 实现 (相对 

piis RICH TERRE LEGE FREI UR 





8.3.3 Pandas 中 矢量 化 的 字符 串 国 数 


清理 散乱 数据 时 ,常常 需要 做 一 些 字符 串 规整 化 工作 。 更 为 复杂 的 情况 是 ,含有 字符 串 
的 列 有 时 还 含有 缺失 数据 。 


In [1]: data = ('Dave': 'dave@google.com', 'Steve': 'steve@gmail. com', 
'Rob': 'rob(Zgmail.com', 'Wes': np. nan} 


In [2]: data = pd.Series(data) 


In [3]: data 

Out[3]: 

Dave dave@google. com 
Rob rob@gmail. com 
Steve steve@gmail. com 
Wes NaN 


In [4]: data. isnull() 
Out[4]: 

Dave False 

Rob False 

Steve False 

Wes True 
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通过 data. map, 所 有 字符 串 和 正则 表达 式 方 法 都 能 被 应 用 于 (传人 Lambda. 表达 式 或 
其 他 函数 ) 各 个 值 ,但 是 如 果 存 在 NA 就 会 报错 。 为 了 解决 这 个 问题 ,Series 有 一 些 能 够 跳 
过 NA 值 的 字符 串 操作 方 法 。 通 过 Series 的 str 属性 即 可 访问 这 些 方法 。 例 如 ,可 以 通过 
str. contains 检查 各 个 电子 邮件 地 址 是 否 含有 “gmail”: 


In [5]: data. str. contains( 'gmail') 
Out[5]: 
Dave False 


Wes NaN 
这 里 也 可 以 使 用 正则 表达 式 ,还 可 以 加 上 任意 re 选项 (如 IGNORECASE) : 


In [6]: pattern 
Out[6]: ([A-Z0-9. & *-]*)G([A-Z0-9. -] *)W.([A- Z1(2,4))" 


In [7]: data.str.findall(pattern, flags - re. IGNORECASE) 
Out[7]: 

Dave [('dave', 'google', 'com')] 

Rob [('rob', 'gmail', 'com')] 

Steve [('steve', 'gmail', 'com')] 

Wes NaN 


此 外 ,有 两 个 办 法 可 以 实现 矢量 化 的 元 素 获取 操作 ,要 么 使 用 str. get, 要 么 在 str 属性 
上 使 用 索引 。 


In [8]: matches = data.str.match(pattern, flags = re. IGNORECASE) 


In [9]: matches 

Out[9]: 

Dave ('dave', 'google', 'com') 
Rob ('rob', 'gmail', 'com') 
Steve ('steve', 'gmail', 'com') 
Wes NaN 


In [10]: matches. str.get(1) 
Out[10]: 

Dave google 

Rob gmail 

Steve gnail 

Wes NaN 


In [11]: matches. str[0] 
Out[11]: 

Dave dave 

Rob rob 

Steve steve 

Wes NaN 


另外 ,可 以 利用 下 面 这 种 代码 对 字符 串 进 行 子 串 截取 。 
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L1] 
[2] 
[3] 
[4] 
[5] 


In [12]: data. str[ :5] 
Out[12]: 

Dave dave@ 

Rob rob@g 

Steve steve 

Wes NaN 
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习题 


1. 当 两 个 数据 集 的 索引 全 部 或 部 分 重 倒 时 ,它们 的 数据 组 合 问题 就 不 能 用 简单 的 合并 


或 连接 运算 来 处 理 。 用 Python 代码 举例 说 明 如 何 解决 以 上 问题 。 


2. 下 面 的 数据 中 有 多 行 存在 重复 的 数据 。 请 只 针对 kl 和 k2 列 ,进行 去 重 。 


kl k2 v1 


O0 Uu UN ^o 

g 

z 

o 
ww PP 
OU ^0 N20 


3. 连续 数据 常常 被 离散 化 。 假 设 有 一 组 人 员 数 据 , 希 望 将 它们 划分 为 不 同 的 年 龄 组 ; 
ages = [20, 22, 25, 27, 21, 23, 37, 31, 61, 45, 41, 32] 


如 果 想 要 将 这 些 数 据 划 分 为 "18 一 25”“26 一 35”“35 一 60" 以 及 “60 以 上 ”。 用 Python 


代码 实现 以 上 分 档 需求 ,并 设置 每 档 的 名 称 ,将 labels 选项 设置 为 ['Youth', 'YoungAdult'， 
'MiddleAged'，'Senior'] 。 


4. 简 述 正则 表达 式 的 含义 。 


第 9 


u 








9.1 NumPy 工具 包 


NumPy 的 主要 对 象 是 同 种 元 素 的 多 维 数组 。 在 多 维 数组 中 ,所 有 的 元 素 都 是 一 种 类 型 
的 元 素 表格 , 且 通 过 一 个 正 整 数 下 标 进行 索引 。 需 要 注意 的 是 , numpy. array 和 标准 
Python 库 类 中 的 array. array 并 不 相同 ,后 者 仅 能 够 处 理 一 维 数组 , 且 提 供 的 功能 较 少 。 具 
体 来 说 ,ndarray 对 象 中 的 属性 如 下 。 

(1) ndarray. ndim: 该 属性 表示 数组 轴 的 个 数 。 而 在 Python 语言 中 , 轴 的 个 数 被 称 作 秩 。 

(2) ndarray. shape: 该 属性 表示 数组 的 维度 ,用 来 表示 一 个 数组 中 各 个 维度 上 的 大 小 。 
4j EF — A n ££ m 列 的 矩阵 ,该 属性 的 值 为 (zzz) 。 

(3) ndarray. size: 该 属性 表示 数组 元 素 的 总 个 数 , 它 等 于 属性 中 每 个 维度 上 元 素 个 数 
的 乘积 。 

(4) ndarray. dtype: 该 属性 表示 数组 中 的 元 素 类 型 ,可 以 通过 dtype 来 指定 使 用 哪 一 种 
Python 类 型 。 另 外 ,NumPy 也 提供 类 似 的 数据 类 型 表示 方法 。 

(5) ndarray. itemsize: 该 属性 表示 数组 每 个 元 素 的 字 节 大 小 。 例 如 , 当 一 个 元 素 的 类 
型 为 float64 时 ,数组 itemsize 的 属性 值 即 为 8。 又 如 , 当 一 个 元 素 类 型 为 complex32 时 , 数 
组 itemsize 的 属性 值 为 4。 

接 下 来 ,通过 下 面 的 例子 来 具体 说 明 上 述 属性 。 


>>> from numpy import * 
>>> a = arange(15).reshape(3, 5) 
>>> a 
array([[ 0, 1, 2, 3, 4], 
[ 5, 6, 7, 8, 9], 
10; 11, 12 13; 14 1) 
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其 中 ,reshape(3, 5) 表 示 a 是 一 个 3 行 5 列 的 二 维 数组 ,arange(15) 表 示人 允许 取 值 的 范围 从 
0 到 14。 


>>> a. shape 
(3, 5) 


a. shape 表示 a 含有 行 和 列 的 数量 。 上 述 的 结果 显示 ,a 是 一 个 含有 3 fr 5 列 的 二 维 数 
组 ,这 与 我 们 对 数组 a 的 定义 是 完全 一 致 的 。 


>>> a.ndim 
2 


a. ndim 表示 数组 a 的 维 数 。 上 述 的 结果 显示 ,a 是 一 个 二 维 数组 ,这 与 我 们 上 面 对 a 
的 定义 是 完全 一 致 的 。 


>>> a. dtype. name 
'int32' 

>>> a. itemsize 

4 

>>> a.size 

15 


a. dtype. name a. itemsize,a. size 这 三 个 属性 别 表 示 数 组 中 各 个 元 素 的 类 型 .数组 中 每 
个 元 素 的 字 节 大 小 ,以 及 数组 元 素 的 总 个 数 。 


9.1.1 创建 数组 


在 Python 语言 中 ,有 多 种 创建 数组 的 方法 。 首 先 , 可 以 通过 array 函数 创建 一 个 新 的 
数组 ,所 创建 的 数组 类 型 默认 与 原 array 元 素 的 类 型 一 致 四 。 


>>> from numpy import * 

>>>a = array( [2,3,4] ) 

»^a 

array([2, 3, 4]) 

>>> a.dtype 

dtype('int32!) 

2» b = array([1.2, 3.5, 5.1]) 
>>> b. dtype 

dtype( '£1oat64') 


除 此 之 外 ,还 可 以 在 创建 数组 类 型 时 ,按照 特定 的 格式 进行 显示 。 例 如 ,下 面 的 例子 中 ， 
数组 可 以 按照 复数 形式 展示 。 

>>>c = array( [ [1,2], [3,4] ], dtype = complex ) 

>> c 

array([[ 1. +0.j, 2. +0.j], 

| e P A E PEE a A A 

通常 来 说 ,数组 的 大 小 往往 在 创建 时 是 未 知 的 。 因 此 ,NumPy 提供 了 使 用 占 位 符 来 创 

建 一 个 数组 的 函数 ,这 些 函 数 可 以 降低 扩展 数组 时 的 计算 代价 。 
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下 面 的 例子 中 ,用 函数 zeros 创建 了 一 个 全 0 数组 ,使 用 函数 ones 创建 了 一 个 全 1 的 数 
组 ,使 用 函数 empty 创建 了 一 个 内 容 随 机 产生 的 数组 。 值 得 注意 的 是 ,在 不 指定 数组 类 型 
时 ,默认 创建 的 类 型 是 float64。 


>>> zeros( (3,4) ) 

array([[0., 0., 0., 0.], 

0 0 EE: A 

Or 0 E 

>>> ones( (2,3,4), dtype= int16 ) # dtype 也 可 以 明确 说 明 
array([[[ 1, 1, 1, 1], 

[23737017 

[ 1, 1, 1, 1]], 
[1, 1, 1, 

[ 1, 1, 1, 1], 

[ 1, 1, 1, 1]]], dtype- int16) 

>>> enpty( (2,3) ) 

array([[ 3.73603959e - 262, 6.02658058e - 154, 6.55490914e- 260], 
5. 30498948e — 313, 3.14673309e- 307, 1.00000000e + 000]]) 





为 了 创建 一 个 数组 ,NumPy 还 提供 了 arange 函数 , 它 返 回 的 数组 中 是 按照 一 定 规则 排 
列 的 数组 。 


>>> arange( 10, 30, 5 ) 
array([10, 15, 20, 25]) 
>>> arange( 0, 2, 0.3) 
array([ 0. ; 0.3, 0.6, 0:9, 1.2, 1.5, 1-81) 


9.1.2 打印 数组 


在 打印 一 个 数组 时 ,NumPy 的 展示 形式 类 似 于 骨 套 列表 ,但 呈现 出 以 下 特点 的 布局 吕 。 
CO 从 左 到 右 打 印 最 后 的 轴 ; 

(2) 从 顶 向 下 打印 次 后 的 轴 ; 

(3) 从 项 向 下 打印 剩 下 的 轴 , 每 个 切片 通过 一 个 空 行 与 下 一 个 切片 隔 开 ; 


(4) 一 维 数组 以 行 的 形式 打印 出 来 ,二 维 数组 以 矩阵 的 形式 打印 出 来 ,三 维 数组 以 矩阵 
列表 的 形式 打印 出 来 。 


>>>a = arange(6) 
>>> printa 
[012345] 

>>> 

>>>b = arange(12).reshape(4,3) #2d array 
>>> print b 

[[012] 

[345] 

[678] 


[91011]] 
>>> 


# 1d array 


>>>c = arange(24).reshape(2,3,4) #3d array 
>>> print c 
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[[[0123] 
[4567] 
[891011]] 


[[12 13 14 15] 
[16 17 18 19] 
[20 21 22 23]]] 


当然 ,如 果 一 个 数组 过 大 ,打印 时 会 自动 省 略 中 间 的 部 分 ,而 仅 打印 角落 。 


>>> print arange(10000) 


| 0 1 2 …，9997 9998 9999] 
>>> 


>>> print arange( 10000). reshape(100, 100) 
I[ 0 1 2-, 97 98 99] 
[ 100 101 102 --, 197 198 199] 
[ 200 201 202 .., 297 298 299] 


e 


[9700 9701 9702 .., 9797 9798 9799] 
[9800 9801 9802 .., 9897 9898 9899] 
[9900 9901 9902 .…, 9997 9998 9999]] 


如 果 确 实 想 要 打印 整个 数组 ,可 以 通过 设置 printoptions 参数 来 更 改 打印 选项 ,从 而 强 
制 打印 出 整个 数组 。 


>>> set printoptions(threshold- 'nan') 
9.1.3. 基本 运算 
数组 是 按 元 素 进行 算术 运算 的 。 因 而 ,新 的 数组 将 会 被 创建 ,并 且 得 到 的 结果 会 被 


填充 器 加 
>>>a = array( [20,30,40,50] ) 
>>>b = arange( 4 ) 
>>> b 


array([0, 1, 2, 3]) 

>>c = a-b 

>>> c 

array([20, 29, 38, 47]) 

>>> b**2 

array([0, 1, 4, 9]) 

>>> 10 * sin(a) 

array([ 9.12945251, - 9.88031624, 7.4511316 , - 2.62374854]) 
>>> a«35 

array([True, True, False, False], dtype = bool) 


与 其 他 语言 表达 矩阵 时 有 所 不 同 ,NumPy 的 乘法 运算 符 * 是 按照 元 素 进行 计算 的 ,而 
和 矩阵 乘法 则 是 可 以 通过 dot PR cox OEE ER S oe Sc PLI 


22» A = array( [[1,1], 
[0,11] ) 
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2» B = array( [[2,0], 
[3,41] ) 
x RxB # 和 矩阵 元 素 乘积 
array([[2, 0], 

[0, 4]]) 
>>> dot(A, B) HEERE 
array([[5, 4], 

[3, 4]]) 


此 外 ,还 有 一 些 操作 符 , 例 如 十 二 和 * 二 ,是 用 来 更 改 现 有 的 数组 ,而 不 是 创建 一 个 新 的 
数组 。 


>>> a = ones((2,3), dtype- int) 
»» b = random. randon((2,3)) 
»»a*-23 
^a 
array([[3, 3, 3], 
[3, 3, 3]]) 
>>b += a 
>>> b 
array([[ 3. 69092703, 3.8324276 , 3. 0114541 ], 
[ 3.18679111, 3. 3039349 , 3. 37600289] ]) 
>>>a += b 
>> a 
array([[6, 6, 6], 
[6, 6, 6]]) 


当 多 种 类 型 的 数组 进行 计算 时 ,结果 中 得 到 的 数组 通常 采用 更 精确 的 值 , 这 种 行为 叫 作 
upcast。 例 如 , 当 一 个 整 型 数组 和 float 数组 进行 计算 时 ,得 到 的 结果 自动 upcast 到 float 型 
数组 。 


>>> a = ones(3, dtype- int32) 

>>> b = linspace(0,pi,3) 

>>> b. dtype. name 

'float64" 

-»-c-7atb 

>> c 

array([ 1., 2.57079633, 4.14159265]) 


9.1.4 RINIA 
Python PHRA T RRS HAER, 


>>>a = arange(10) ** 3 

>>a 

array([ 0, 1, 8, 27, 64, 125, 216, 343, 512, 729]) 
>>> a[2] 

8 

>>> a[2:5] 

array([ 8, 27, 64]) 

>>a[l:6:2] = - 1000 
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>>>a 
array([ - 1000, 1, — 1000, 27, — 1000, 125, 216, 343, 512, 729]) 
2»2a[::-1] f reversedata 


array([729, 512, 343, 216, 125, —1000, 27, - 1000, 1, —1000]) 


具体 来 说 ,Python 允许 将 多 维 数组 的 每 个 轴 设 置 为 一 个 索引 ,而 每 个 索引 由 逗号 分 隔 
的 元 组 表示 。 


>>> def f(x, y): 
return l0*x-*y 


>>> b = fromfunction(f, (5,4), dtype = int) 
>>> b 
array([[ 0, 1, 2, 3], 
[107117 12; 13]; 
[a 2 
[30, 31, 32, 33], 
[40, 41, 42, 43]]) 
>>> b[2,3] 
23 
>>> b[0:5, 1] #b 中 第 二 列 的 所 有 行 
array([ 1, 11, 21, 31, 41]) 
»b[:,1] #b 中 第 二 列 的 所 有 行 
array([ 1, 11, 21, 31, 41]) 
>> b[1:3, : ] #b 中 第 二 行 和 第 三 行 中 的 所 有 列 
array([[10, 11, 12, 13], 
[20, 21, 22, 23]]) 


当 提 供 的 轴 数 少 于 索引 的 个 数 时 ,默认 代表 缺失 部 分 索引 的 整个 切片 。 
»b[-1] # 等 同 于 b[ -1,:] 


array([40, 41, 42, 43]) 
其 中 ,b[ 让 中 只 提供 了 一 个 轴 , 默 认 代 表 其 余 的 轴 。 

此 外 , 当 我 们 对 每 个 数组 元 素 进行 运算 时 ,可 以 使 用 数组 的 fat 属性 ,作为 该 数组 中 遍 
历 所 有 元 素 的 一 个 迭代 器 。 


>>> for element in b.flat: 


print element, 


01231011 12 13 20 21 22 23 30 31 32 33 40 41 42 43 


9.1.5 形状 操作 
首先 ,一 个 数组 的 大 小 可 以 通过 该 数组 中 每 个 轴 上 元 素 的 个 数 得 到 中 。 


>>> a = floor(10 * random. random( (3,4))) 
>>> a 
array([[ 7., 5., 9., 3.], 

es a L P 

[6., 8., 3., 2.]]) 
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2» a. shape 
(3, 4) 


当 我 们 需要 修改 一 个 数组 的 形状 时 ,可 以 使 用 多 种 命令 ,例如 ravel 和 transpose, 


>>> a.ravel() 
Eee vd [rre eo e Rest see ree cea ey Gv ben] D) 
>>> a.shape = (6, 2) 
>>> a. transpose( ) 
avray([E 97:9, 775: E 73. 17 
[ 5., 3., 2., 8., 8., 2.]]) 


此 外 ,还 可 以 通过 resize 函数 来 改变 数组 的 自身 形状 。 


>>> a 

array([[ 7., 5.], 
EE A 
[7.,2.], 
[7., 8.], 
[6.,8.], 


[ 3., 2.]]) 

>>> a. resize((2,6)) 

>> a 

array UI VeSa 3 2 
[7., 8., 6., 8., 3., 2.]]) 


9.1.6 复制 和 视图 


在 处 理 数 组 时 ,需要 将 数据 复制 到 新 的 数组 中 。 通 常 来 说 ,有 以 下 三 种 处 理 情况 中 。 
1. 完全 不 复制 
在 这 种 情况 中 ,可 以 简单 地 对 数组 进行 赋值 ,而 不 需要 复制 数组 对 象 的 数据 。 


>>>a = arange(12) 


»b-2a # BA e S NW object 

»bisa #a 和 b 是 相同 object 的 两 个 名 字 
True 

>>> b. shape = 3,4 # b 的 形状 改变 后 ,a 的 形状 也 跟着 改变 
>>> a. shape 

(3, 4) 


2. 视图 和 浅 复制 
在 这 种 情况 中 ,不 同 的 数组 对 象 可 以 共同 分 享 一 组 数据 。 视 图 方法 可 以 构建 一 个 新 的 
数组 对 象 , 并 指向 同一 组 数据 。 


>>>c = a.view() 

>>> cisa 

False 

>>> c.base isa #c 是 数据 a 的 一 个 视图 
True 


>>> c.shape = 2,6 #a 的 形状 不 会 改变 
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>>> a. shape 
(3, 4) 
»c[0,4] = 1234 #a 的 数据 会 改变 
>>>a 
array([[ 0, 1, 2, 3], 
[1234, 5, 6, 7], 
[ 8, 9, 10, 11]]) 


3. 深 复制 


在 这 种 情况 下 ,该 方法 可 以 完全 复制 数组 以 及 它 的 数据 ,创建 一 个 新 的 数组 ,而 不 是 分 
享 共同 的 数据 。 


>>>d = a.copy() # 创 建 了 一 个 新 的 数组 
created 
>>> d is a 
False 
>>> d.base isa #d 和 a 不 分 享 任何 数据 
False 
>>> d[0,0] = 9999 
>> a 
array([[ 0, 10, 10, 3], 
[1234, 10, 10, 7], 
[ 8, 10, 10, 1111) 


9.1.7 NumPy 实用 技巧 


dit Foe fr 4H — 63 AHER, E ETE Sz Bc PRAKHAR, 
1.“ 自 动 "改变 形状 


我 们 可 以 通过 省 略 多 维 数组 的 一 个 尺寸 ,来 更 改 数 组 的 维度 。 被 省 略 的 维度 ,将 会 自动 
地 推导 出 来 。 


>>>a = arange(30) 

>>> a. shape = 2, - 1,3 # -1 用 来 表示 缺失 的 尺寸 
>>> a. Shape 

(2; 5; 3) 


这 样 ,第 二 个 维度 值 5 就 被 自动 地 推导 出 来 了 。 


>> a 

array([[[ 0, 1, 2], 
[ 3, 4, 5], 
[ 6, 7, 8], 
EE T PEE i A 
[12, 13, 14]], 
[[15, 16, 17], 
[18, 19, 20], 
[21, 22, 23], 
[24, 25, 26], 
[27, 28, 29]]]) 
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2. 向 量 组 合 


我 们 可 以 通过 一 些 方法 ,通过 两 个 尺寸 相同 的 行 向 量 列表 来 构建 一 个 二 维 数组 。 在 
NumPy 中 ,这 个 过 程 可 以 通过 函数 column. stack, dstack,hstack 和 vstack 来 完成 。 当 然 ， 
这 种 向 量 组 合 ,取决 于 我 们 想 要 在 哪个 维度 上 进行 组 合 。 


x = arange(0,10,2) £x- ([0,2,4,6,8]) 
y = arange(5) #y= ([0,1,2,3,4]) 
m = vstack([x, y]) £n- ([[0,2,4,6,8], 
& — [0,1,2,3,4]]) 
xy = hstack([x, y]) #xy = ([0,2,4,6,8,0,1,2,3,4]) 
3. 直方 图 


在 NumPy 中 ,将 histogram 函数 应 用 到 一 个 数组 上 时 ,会 返回 一 对 变量 ,包括 直方 图 数 
组 和 箱 式 向 量 。 值 得 注意 的 是 , Matplotlib 中 也 有 一 个 用 来 建立 直方 图 的 函数 , 叫 作 histo 
然而 ,两 者 存在 一 定 的 差别 ,前 者 仅 产生 数据 ,而 后 者 则 可 以 自动 绘制 直方 图 。 

在 下 面 的 案例 中 ,hist 构建 了 一 个 正 态 分 布 的 数组 ,并 且 可 以 通过 plot 和 show. 函数 进 
行 展 示 。 

import numpy 

import pylab 

# Build a vector of 10000 normal deviates with variance 0.5 ^2 and mean 2 

mu, sigma - 2, 0.5 

v = numpy. random. normal(mu, sigma, 10000) 

* Plot a normalized histogram with 50 bins 

pylab.hist(v, bins = 50, normed- 1) f matplotlib version (plot) 

pylab. show() 

# Compute the histogram with numpy and then plot it 

(n, bins) = numpy.histogram(v, bins = 50, normed- True) # NumPy version (no plot) 

pylab.plot(.5 * (bins[1:] + bins[: — 1]), n) 

pylab. show() 


9.2 Pandas IR & 


Pandas 中 含有 一 些 高 级 的 数据 操作 工具 ,这 些 工 具 可 以 使 数据 分 析 工 作 变 得 更 加 简单 
高 效 。Pandas 工具 包 是 基于 NumPy 工具 包 进 行 构建 的 , 它 的 数据 结构 可 以 按 轴 自 动 地 或 
显 式 地 对 齐 数据 。Pandas 的 这 种 特性 可 以 防止 许多 由 数据 未 对 齐 而 导致 的 常见 错误 。 此 
外 ,Pandas 还 可 以 集成 其 他 功能 .例如 时 间 序 列 功能 。 这 使 得 Pandas 既 能 处 理 按 照 时 间 序 
列 排列 的 数据 ,也 能 处 理 非 时 间 序 列 排列 的 数据 。 这 样 ,数学 运算 就 可 以 根据 不 同 的 元 数据 
执行 ,并 灵活 地 处 理 缺 失 数据 器 。 

首先 ,使 用 Pandas 时 ,可 以 采用 以 下 两 种 方式 导入 工具 包 。 

view sourceprint? 

01.In [1]: from pandas import Series, DataFrame 

02. 

03. In [2]: import pandas as pd 
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通常 来 说 , 当 我 们 在 一 段 代码 中 看 到 pd 这 一 关键 字 时 ,就 要 考虑 使 用 了 Pandas 这 个 工 
具 包 。 要 使 用 Pandas, 先 得 熟悉 它 的 两 个 主要 数据 结构 : Series 和 DataFrame。 这 两 种 数 
据 结构 为 大 多 数 应 用 提供 了 可 靠 的 .易于 使 用 的 基础 。 


9.2.1 Series 


Series 类 似 于 一 维 数组 , 它 由 一 组 数据 以 及 对 应 的 数据 标签 ( 即 索 引 ) 组 成 。 通 常 来 说 ， 
仅 由 一 组 数据 就 可 以 产生 最 基本 的 Series。 


View sourceprint? 
01.In [4]: obj = pd.Series([4, 7, -5, 3]) 


02. 
03. In [5]: obj 
04. Out [5]: 
05.0 4 
06.1 7 
07.2 -5 
083 3 


09.dtype: int64 


Series 的 字符 串 由 两 部 分 组 成 : 左边 是 字符 串 的 索引 ,右边 是 字符 串 的 值 。 如 果 没 有 
指定 数据 索引 ,Series 就 会 自动 地 创建 一 个 从 0 到 N 一 1(N 为 数据 的 长 度 ) 的 整 型 索引 。 在 
Series 中 ,可 以 使 用 values 和 index 这 两 个 属性 获取 数组 的 值 和 索引 对 象 。 

view sourceprint? 

01.In [7]: obj. values 

02.0ut[7]: array([ 4, 7, —- 5, 3], dtype = int64) 

03. 

04. In [8]: obj. index 

05.0ut[8]: Inté4Index([0, 1, 2, 3], dtype- 'int64') 

通常 来 说 ,我 们 总 是 希望 在 所 创建 的 Series 中 ,有 一 个 可 以 对 各 个 数据 点 进行 标记 的 
索引 。 


view sourceprint? 
01.In [9]: obj2 = pd.Series([4, 7, —5, 3], index- ['d', 'b', 'a', 'c']) 


02. 

03.In [10]: obj2 
04.0ut[10]: 
05.d 4 
06.b 7 
07.a -5 
08.c 3 
09. dtype: int64 
10. 


11. In [11]: obj2. index 

12.0ut[11]: Index([u'd', u'b', u'a', u'c'], dtype= 'object') 

当然 ,除了 使 用 values 这 个 属性 外 ,还 可 以 通过 索引 的 方式 获取 Series 中 的 单个 值 或 
者 一 组 值 。 
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view sourceprint? 
01. In [12]: obj2['a'] 
02.0ut[12]: -5 


03. 

04. In [13]: obj2['d'] = 6 

05. 

06. In [14]: obj2[['c', 'a', 'd']] 
07.0ut[14]: 

08.c a 

oa —5 

10.d 6 


11. dtype: int64 


此 外 ,还 可 以 将 Series 看 成 是 一 个 长 度 固定 的 有 序 字 典 , 字 典 反映 的 是 索引 值 到 数据 值 
的 映射 。 因 此 ,在 以 字典 作为 参数 的 函数 中 ,也 可 以 用 Series 代替 字典 作为 函数 的 参数 。 


view sourceprint? 
01.In [31]: 'b' in obj2 
02.0ut[31]: True 

03. 

04. In [32]: 'e' in obj2 
05.0ut[32]: False 


当 数 据 被 存放 在 Python 字典 中 时 ,可 以 直接 通过 这 个 字典 来 创建 Series。 


view sourceprint? 

01. In [33]: sdata = ('Ohio': 3500, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000) 
02. 

03. In [34]: obj3 = pd.Series(sdata) 
04. 

05. In [35]: obj3 

06.0ut[35]: 

07.0hio 3500 

08.0regon 16000 

09.Texas 71000 

10.Utah 5000 

11. dtype: int64 


当 我 们 只 传人 一 个 字典 时 ,所 得 到 的 Series 中 的 索引 代表 了 原 字典 中 的 键 ( 有 序 排列 )。 


view sourceprint? 
01.In [36]: states = ['California', 'Ohio', 'Oregon', 'Texas'] 


02. 

03. In [37]: obj4 = pd.Series(sdata, index = states) 
04. 

05. In [38]: obj4 

06.0ut[38]: 

07.California NaN 

08. Ohio 3500 

09. Oregon 16000 

10. Texas 71000 


11.dtype: float64 
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值得 注意 的 是 ,在 上 述 例子 中 , 当 sdata 与 states 中 的 索引 相 匹 配 时 ,所 得 到 的 值 就 会 
被 放 到 与 索引 对 应 的 位 置 上 。 否 则 ,索引 结果 就 用 NaN 表示 。 例 如 ,California 所 对 应 的 
sdata 值 找 不 到 ,其 索引 结果 就 记 为 NaN ,表示 该 值 是 缺失 的 。 当 我 们 使 用 缺失 或 NA 表示 
缺失 数据 时 ,可 以 用 Pandas 的 isnull 和 notnull 函数 来 检测 缺失 的 数据 。 


view sourceprint? 
01.In [39]: pd. isnull(obj4) 


02.0ut[39]: 
03.California True 
04. Ohio False 
05, Oregon False 
06. Texas False 
07. dtype: bool 

08. 

09. In [40]: pd. notnull(obj4) 
10.0ut[40]: 
11.California False 
12.0hio True 
13. Oregon True 
14. Texas True 


15.dtype: bool 


对 于 许多 计算 应 用 而 言 ,Series 最 重要 的 一 个 功能 就 是 : 在 算术 运算 中 ,Series 会 自动 
对 齐 不 同 索引 的 数据 。 


view sourceprint? 
01.In [42]: obj3 


02.0ut[42]: 

03. Ohio 3500 
04. Oregon 16000 
05. Texas 71000 
06. Utah 5000 
07.dtype: int64 

08. 

09. In [43]: obj4 
10.0ut[43]: 
11.California NaN 
12.0hio 3500 
13. Oregon 16000 
14. Texas 71000 
15.dtype: float64 

16. 

17. In [44]: obj3 + obj4 
18.0ut[44]: 
19.California  NaN 
20.0hio 7000 
21.0regon 32000 
22. Texas 142000 
23.Utah NaN 


24.dtype: float64 





第 9 章 数据 分 析 技 术 dei 


当然 ,Series 的 索引 可 以 在 赋值 的 时 候 进行 修改 。 


view sourceprint? 
01. In [48]: obj. index = ['Bob', 'Steve', 'Jeff', 'Ryan'] 


02. 

03. In [49]: obj 
04.0ut[49]: 

05. Bob 4 
06.Steve 7 
07.Jeff -5 
08.Ryan 3 


09.dtype: int64 
9.2.2 DataFrame 


DataFrame 是 一 种 表格 类 型 的 数据 结构 , 它 含 有 一 组 有 序 的 列 。 每 一 列 可 以 是 不 同类 
型 的 值 ( 例 如 数值 .字符 串 ,布尔 值 等 ) DataFrame 既 可 以 按 行 索引 ,也 可 以 按 列 索引 ,因而 
可 以 被 视 为 由 Series 组 成 的 字典 。 与 其 他 数据 结构 相 比 ,DataFrame 中 对 行 操作 和 对 列 操 
作 基 本 上 是 平衡 的 。 其 实 ,DataFrame 中 的 数据 是 通过 一 个 或 多 个 二 维 块 进行 存放 的 中 。 

值得 注意 的 是 ,虽然 DataFrame 默认 是 以 二 维 结构 保存 数据 的 ,但 我 们 仍然 可 以 将 其 
转换 为 更 高 维 的 数据 。 当 然 ,构建 DataFrame 的 办 法 有 很 多 种 ,其 中 最 常用 的 办 法 就 是 直 
接 传 人 一 个 字典 。 

view sourceprint? 

01.In [50]: data = ('state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'], 


02 'year': [2000, 2001, 2002, 2001, 2002], 
03 'pop': [1.5, 1.7, 3.6, 2.4, 2.9]) 
04. 


05.In [51]: frame = pd.DataFrame(data) 
DataFrame 从 而 可 以 自动 加 上 索引 ( 跟 Series 一 样 ), 且 全 部 的 列 都 会 进行 有 序 的 排列 。 


View sourceprint? 

01. pop state year 

02.0 1.5 Ohio 2000 
03.1 1.7 Ohio 2001 
04.2 3.6 Ohio 2002 
05.3 2.4 Nevada 2001 
06.4 2.9 Nevada 2002 
07. 

08. [5 rows x 3 columns] 


指定 了 列 序列 以 后 ,DataFrame 的 列 就 会 根据 特定 的 顺序 进行 排列 。 


View sourceprint? 

01. In [53]: pd.DataFrame(data, columns = ['year', 'state', 'pop']) 
02.0ut[53]: 

03. year state pop 

04.0 2000 Ohio 1.5 

05.12001  Ohio1.7 
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06.2 2002  Ohio3.6 
07.3 2001 Nevada 2.4 
08.4 2002 Nevada 2.9 
09. 

10.[5 rows x 3 columns] 


5j Series 类 似 , 当 DataFrame 传人 的 列 在 数据 中 找 不 到 时 ,就 会 自动 产生 NA 值 ,标记 
为 NaN。 





view sourceprint? 

01.In [54]: frame2 = pd.DataFrame(data, columns = ['year', 'state', 'pop', 'debt'], 
02: index- ['one', 'two', 'three', 'four', 'five']) 

03. 

04. In [55]: frame2 

05.0ut[55]: 

06. year state pop debt 

07. one 2000 Ohio 1.5 NaN 

08. two 2001 Ohio 1.7 NaN 

09.three 2002 Ohio 3.6 NaN 

10.four 2001 Nevada 2.4 NaN 

11.five 2002 Nevada 2.9 NaN 

12: 

13. [5 rows x 4 colunns] 

14. 

15. In [56]: frame2.columns 

16.0ut[56]: Index([u'year', u'state', u'pop', u'debt'], dtype = 'object') 


此 外 ,通过 类 似 于 字典 标记 的 方式 ,可 以 将 DataFrame 的 各 个 列 获取 为 一 个 Series. 


view sourceprint? 
01.In [57]: frane2[ 'state'] 


02.0ut[57]: 
03. one Ohio 
04. two Ohio 


05.three Ohio 

06.four Nevada 

07.five Nevada 

08.Name: state, dtype: object 
09. 

10. In [58]: frame2. year 
11.0ut[58]: 

12. one 2000 

13.two 2001 

14.three 2002 

15.four 2001 

16.five 2002 

17.Name: year, dtype: int64 


返回 的 列 存在 一 个 Series 中 , 它 拥有 与 原 DataFrame 相同 的 索引 , 且 其 name 属性 也 默 
认 地 设置 完成 了 。 当 然 , 也 可 以 通过 位 置 或 名 称 的 方式 对 行进 行 获取 ,例如 用 索引 字段 ix: 
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view sourceprint? 

01. In [59]: frame2.ix['three'] 
02.0ut[59]: 

03.year 2002 

04.state Ohio 

05. pop 3.6 

06.debt NaN 

07.Name: three, dtype: object 


DataFrame 中 的 每 一 列 也 可 以 通过 赋值 的 方式 进行 修改 。 例 如 ,可 以 在 某 个 空 列 上 赋 
一 个 标量 值 或 一 组 值 。 


view sourceprint? 

01.In [60]: frame2['debt'] = 16.5 

02. 

03. In [61]: frame2 

04. 0ut[61]: 

05.year state pop debt 

06.one 2000 Ohio 1.5 16.5 

07.two 2001 Ohio 1-7 16:5 

08. three 2002 Ohio 3.6 16.5 

09. four 2001 Nevada 2.4 16.5 

10. five 2002 Nevada 2.9 16.5 

3I. 

12.[5 rows x 4 colunns] 

view sourceprint? 

01. In [62]: frame2['debt'] = np.arange(5.) 
02. 

03. In [63]: frame2 

04. 0ut[63]: 

05.year state pop debt 
06.one 2000 Ohio 1.5 
07.two 2001 Ohio 1.7 
08.three 2002 Ohio 3.6 
09.four 2001 Nevada 2.4 
10.five 2002 Nevada 2.9 
21: 

12.[5 rows x 4 columns] 


当然 ,在 对 列 进行 赋值 时 , 列 的 长 度 必 须 和 DataFrame 的 长 度 相 匹配 ,所 有 的 空位 都 将 
被 十 上 缺失 值 NaN. 


wb PP 口 


view sourceprint? 

01. In [64]: val = pd.Series([- 1.2, -1.5, -1.7], index- ['two', 'four', 'five']) 
02. 

03. In [65]: frame2['debt'] = val 

04. 

05. In [66]: frame2 

06.0ut[66]: 

07.year state pop debt 

08.one 2000 Ohio 1.5  NaN 
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09.two 2001 Obio lz7 =12 
10. three 2002 Ohio 3.6 NaN 

11.four 2001 Nevada 2.4 -1.5 
12.five 2002 Nevada 2.9 -1.7 


14. [5 rows x 4 columns] 


此 外 ,还 可 以 对 不 存在 的 列 进行 赋值 ,从 而 构造 出 一 个 新 列 。 其 中 ,关键 字 del 可 以 用 
于 删除 某 一 列 。 


view sourceprint? 

01. In [67]: frame2['eastern'] = frame2.state == 'Ohio' 
02. 

03. In [68]: frame2 

04.0ut[68]: 

05.year state pop debt eastern 
06.one 2000 Ohio 1.5  NaN True 
07.two 2001 Ohio 1.7 -1.2 True 
08. three 2002 Ohio 3.6 NaN True 
09. four 2001 Nevada 2.4 -1.5 False 
10.five 2002 Nevada 2.9 -1.7 False 
21. 

12. [5 rows x 5 columns] 


1 


View sourceprint? 

01. In [69]: del frame2[ 'eastern'] 

02. 

03. In [70]: frame2.columns 

04.0ut[70]: Index([u'year', u'state', u'pop', u'debt'], dtype- 'object') 

值得 注意 的 是 ,通过 索引 方式 返回 的 列 仅仅 是 对 应 的 数据 视图 而 已 ,并 不 是 数据 副本 。 
因此 ,对 Series 所 做 的 任何 修改 ,都 会 全 部 反映 到 原来 的 DataFrame 上 。 此 外 ,通过 Series 
的 copy 函数 可 以 显 式 地 复制 某 一 列 。 


9.3 Scikit-Learn 工具 包 


Scikit-Learn 是 由 David Cournapeau 在 2007 年 发 起 的 项 目 , 是 一 种 基于 Python 的 机 
器 学 习 模块 。Scikit-Learn 库 已 经 实现 了 几乎 所 有 常用 的 机 器 学 习 算 法 ,下 面 介绍 其 中 的 一 
些 算法 口 。 


9.3.1 逻辑 回归 


通常 情况 下 ,逻辑 回归 被 用 来 解决 分 类 问题 ,尤其 是 二 元 分 类 问题 。 这 个 算法 的 优点 
是 : 每 一 个 输出 的 对 象 (一 个 类 别 ) 都 有 一 个 与 之 对 应 的 概率 。 


from sklearn import metrics 

from sklearn.linear model import LogisticRegression 
model - LogisticRegression() 

model.fit(X, y) 
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print(model) 

# make predictions 

expected - y 

predicted - model.predict(X) 

* summarize the fit of the model 
print(metrics.classification report(expected, predicted)) 
print(metrics.confusion matrix(expected, predicted)) 


9.3.2 朴素 贝 叶 斯 


朴素 贝 叶 斯 算法 也 是 最 著名 的 机 器 学 习 的 算法 之 一 ,其 主要 任务 是 恢复 训练 样本 的 数 
据 分 布 密度 。 这 个 方法 通常 在 多 分 类 问题 上 有 较 好 的 表现 。 


from sklearn import metrics 

from sklearn.naive bayes import GaussianNB 

model - GaussianNB() 

model.fit(X, y) 

print(model) 

# make predictions 

expected - y 

predicted - model.predict(X) 

* summarize the fit of the model 
print(metrics.classification report(expected, predicted)) 
print(metrics.confusion matrix(expected, predicted)) 


9.3.3 -最 近邻 


kNN(k- 最 近邻 ) 方 法 通常 用 于 复合 分 类 算法 的 一 部 分 。 例 如 ,可 以 用 它 的 估计 值 作为 
一 个 回归 问题 中 变量 的 选择 。 在 参数 设置 得 当时 ,该 算法 在 回归 问题 中 会 表现 出 极 好 的 
效果 。 


from sklearn import metrics 

from sklearn. neighbors import KNeighborsClassifier 

# fit a k- nearest neighbor model to the data 

model - KNeighborsClassifier() 

model. fit(X, y) 

print(model) 

# make predictions 

expected = y 

predicted - model.predict(X) 

# summarize the fit of the model 
print(metrics.classification report(expected, predicted)) 
print(metrics.confusion matrix(expected, predicted)) 


9.3.4 决策 树 


决策 树 是 直观 运用 概率 分 析 的 一 种 图 解法 。 由 于 这 种 决策 分 支 画 成 图 形 很 像 一 棵 树 的 
EF , 故 称 为 决策 树 。 决 策 树 代 表 一 类 算法 ,C4. 5 是 其 中 比较 典型 的 一 种 算法 。C4. 5 算法 
采用 粮 来 选择 属性 ,以 构成 决策 分 支 ; 并 采用 后 剪 枝 以 抑制 不 必要 的 决策 分 支 的 生长 。 
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CART 算法 采用 Gini 来 选择 属性 ,并 采用 前 剪 枝 以 抑制 不 必要 的 决策 分 支 的 生长 。 下 面 是 
CART 决策 树 算法 的 代码 。 


from sklearn import metrics 

from sklearn. tree import DecisionTreeClassifier 

#fit a CART model to the data 

model = DecisionTreeClassifier() 

model. fit(X, y) 

print(model) 

f make predictions 

expected = y 

predicted = model. predict(X) 

# summarize the fit of the model 
print(metrics.classification report(expected, predicted) ) 
print(metrics.confusion matrix(expected, predicted) ) 


9.3.5 支持 向 量 机 
支持 向 量 机 是 当下 最 流行 的 机 器 学 习 算 法 之 一 , 它 主要 用 于 多 分 类 问题 。 


from sklearn import metrics 

from sklearn. svm import SVC 

#fit a SVM model to the data 

model = SVC() 

model.fit(X, y) 

print(model) 

# make predictions 

expected - y 

predicted = model. predict(X) 

# summarize the fit of the model 
print(metrics.classification report(expected, predicted)) 
print(metrics.confusion matrix(expected, predicted)) 


除了 解决 分 类 问题 外 ,Scikit-Learn 还 有 海量 的 算法 可 以 处 理 更 复杂 的 问题 ,包括 聚 类 
以 及 建立 混合 算法 的 实现 技术 ,例如 Bagging 和 Boosting 算法 。 


9.3.6 优化 算法 参数 


通过 正确 地 选择 参数 ,可 以 高 效 地 编写 算法 。 然 而 ,如 何 正 确 地 选择 参数 是 一 个 重要 的 
问题 ,会 影响 机 器 学 习 算 法 的 性 能 。 幸 和 运 的 是 , Scikit-Learn 提供 了 很 多 函数 以 解决 这 类 


问题 号。 
作为 一 个 例子 ,我们 来 看 一 下 规则 化 选择 参数 的 方法 ,其 中 很 多 参数 的 数值 都 相继 地 搜 
索 出 来 了 。 


import numpy as np 

from sklearn.linear model import Ridge 

from sklearn.grid search import GridSearchCV 

# prepare a range of alpha values to test 

alphas = np.array([1,0.1,0.01,0.001,0.0001,0]) 
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* create and fit a ridge regression model, testing each alpha 

model - Ridge() 

grid = GridSearchCV(estimator = model, param grid = dict(alpha = alphas)) 
grid.fit(X, y) 

print(grid) 

* summarize the results of the grid search 

print(grid.best score ) 

print(grid.best estimator .alpha) 


有 些 时 候 , 我 们 可 以 随机 地 从 某 个 范围 内 高 效 地 选取 一 个 参数 ,通过 估计 此 参数 下 算法 


的 效果 ,进而 选择 出 最 好 的 参数 。 


[1] 
[2] 
[3] 
[4] 
[5] 
L6] 
[7] 
L8] 


import numpy as np 

from scipy.stats import uniform as sp rand 

from sklearn.linear model import Ridge 

from sklearn.grid search import RandomizedSearchCV 

* prepare a uniform distribution to sample for the alpha parameter 
param grid = ('alpha': sp rand()) 

f create and fit a ridge regression model, testing random alpha values 
model - Ridge() 

rsearch = RandomizedSearchCV(estimator = model, param distributions = param grid, n iter = 
100) 

rsearch.fit(X, y) 

print(rsearch) 

# summarize the results of the random parameter search 
print(rsearch.best score ) 

print(rsearch.best estimator .alpha) 
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习题 


用 Matplotlib 工具 包 创建 直方 图 。 

阐述 DataFrame 的 定义 。 

用 Scikit-Learn 工具 包 实 现 逻 辑 回 归 。 

用 Scikit-Learn 工具 包 实 现 CART 决策 树 算法 。 
用 Scikit-Learn 工具 包 实 现 朴 素 贝 叶 斯 算法 。 
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10.1 Matplotlib 绘图 


Matplotlib 来 自 于 由 John Hunter f£ 2002 年 启动 的 一 个 用 于 创建 图 表 的 绘图 项 目 ,其 
目的 是 为 Python 构建 一 个 与 MATLAB 之 间 进 行 交 互 的 绘图 接口 。Matplotlib 可 以 支持 
各 类 操作 系统 上 的 GUI 后 端 ,也 可 以 将 图 片 存储 为 各 类 格式 的 图 片 , 包 括 PDF JPG、PNG、 
GIF 等 。 此 外 ,Matplotlib 还 支持 许多 插件 工具 ,包括 用 于 3D 绘图 的 mplot3d, 用 于 地 图 描 
绘 的 basemap 等 中 。 


10.1.1 Matplotlib API AT] 


Matplotlib 的 使 用 方法 有 很 多 种 ,其 中 常用 的 方式 是 将 IPython 的 默认 配置 指定 为 
Matplotlib GUI 后 端 ,这 对 大 部 分 用 户 而 言 已 经 够 用 了 。 此 外 , Pylab 模式 还 会 通过 
IPython 引入 大 量 的 模块 和 函数 ,以 提供 一 种 更 接近 于 MATLAB 的 界面 四 。 

在 绘制 一 张 图 表 时 ,如 果 一 切 准备 就 绪 , 就 会 弹出 一 个 窗口 。 用 户 可 以 用 鼠标 或 输入 
close() 来 关闭 它 。Matplotlib API 的 所 有 函数 都 位 于 matplotlib. pyllot 模块 中 ,其 通常 的 
引入 约定 是 : 


import matplotlib. pyplot as plt 


虽然 之 前 介绍 过 的 Pandas 的 绘图 函数 能 够 处 理 许多 普通 的 绘图 任务 ,但 如 果 需 要 自 定 
义 一 些 高 级 功能 ,就 必须 学 习 Matplotlib API。 因 此 ,Matplotlib 的 示例 库 和 文档 是 成 为 给 
图 高 手 的 最 佳 学 习 资 源 。 


10.1.2 Figure 和 Subplot 的 画图 方法 
作为 一 种 面向 对 象 的 语言 ,所 有 Matplotlib 的 图 像 都 位 于 Figure 这 类 的 对 象 中 。 可 以 
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用 plt. figure 这 个 函数 来 创建 一 个 新 的 Figure 对 象 : 

fig = plt.figure() 

这 时 会 弹出 一 个 空 窗口 。plt. figure 有 一 些 选 项 , 它 用 于 确保 保存 后 图 片 的 纵横 比 和 尺 
寸 。Matplotlib 中 的 Figure 还 支持 一 种 类 似 MATLAB 的 编号 方式 ,例如 plt. figure(2) 。 
值得 注意 的 是 ,Python 不 允许 通过 空 的 Figure 对 象 绘 图 ,必须 采用 add_subplot 创建 
Subplot 才 行 : 

axl = fig.add subplot(2, 2, 1) 

以 上 这 行 代码 的 意思 是 ,图 片 的 排列 方式 是 2X2 的 , 即 上 下 左右 各 一 个 图 片 。 此 外 ,我 
们 选中 的 是 4 个 Subplot 中 的 第 一 个 , 即 左 上 角 的 图 片 。 如 果 再 分 别 把 后 面 两 个 Subplot 图 
片 创建 出 来 ,就 可 以 得 到 最 终 的 图 10-1, 
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图 10-1 三 张 空白 图 片 的 示例 











下 面 这 条 绘图 命令 plt. plot ([1.5, 3.5. —2. 1. 6]) 就 会 在 Matplotlib 的 最 后 一 个 用 
过 的 Subplot( 如 果 没 有 则 创建 一 个 ) 上 进行 绘制 。 因 此 ,如 果 执 行 上 条 命令 ,就 会 得 到 如 
图 10-2 所 示 的 效果 。 

“k 一 "是 Matplotlib 的 一 个 绘图 线 型 选项 ,代表 绘图 的 线 型 是 黑色 虚线 。fig. add_ 
subplot 返回 的 对 象 是 AxesSubplot, 它 可 以 直接 调用 实例 方法 在 其 他 空 着 的 格子 里 面 画 
图 ,如 图 10-3 所 示 。 

In [9]: _ = axl.hist(randn(100), bins = 20, color = 'k', alpha= 0.3) 

In [10]: ax2.scatter(np.arange(30), np.arange(30) + 3 * randn(30)) 

Out[10]: < matplotlib. collections. PathCollection at 0xa8201cc > 

各 种 图 标 类 型 详 见 Matplotlib 的 说 明文 档 。 根 据 特 定 布局 ,可 以 创建 Figure 和 
Subplot, 于 是 出 现 了 更 为 便捷 的 方法 (plt. subplots) ,通过 创建 一 个 新 的 Figure, 返 回 一 个 
含有 Subplot 对 象 的 NumPy 数组 。 
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In [13]: fig, axes = 
In [14]: axes 
Out[14]: 


图 10-3 图 片上 绘制 图 像 的 示例 


plt. subplots(2, 3) 


array([[< matplotlib.axes. AxesSubplot object at 0xa76c7ec>, 


< matplotlib. axes 
< matplotlib. axes. 
[< matplotlib. axes. 
< matplotlib. axes. 
< matplotlib. axes. 


这 种 方法 是 非常 实用 的 , 它 可 以 轻松 地 对 axes 数组 进行 索引 ,就 好 像 处 理 一 个 二 维 数 
组 ,例如 ,axes [0, 1]。 此 外 ,还 可 以 通过 sharex 和 sharey 来 指定 Subplot 应 具有 相同 的 
X 轴 或 Y 轴 。 在 比较 相同 范围 的 数据 时 ,这 种 方法 也 是 非常 实用 的 。 否 则 ,Matplotlib 会 自 


动 缩放 各 图 表 的 界限 。 


. AxesSubplot object at 0xae8flec >, 
. AxesSubplot object at 0xb40bc8c >], 
. AxesSubplot object at 0xb5b7dac >, 
. AxesSubplot object at Oxadf680c >, 
.AxesSubplot object at 0xad6222c >]], dtype = object) 
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5 10-1 Matplotlib 中 subplot 函数 的 常用 参数 


参 数 解释 说 明 




















nrows 一 张 图 中 子 图 框 格 的 行 数 

ncols 一 张 图 中 子 图 框 格 的 列 数 

sharex 所 有 subplot 应 该 使 用 相同 的 X di 2a] HE 

sharey 所 有 subplot 应 该 使 用 相同 的 Y il Zal E 

subplot kw | 用 于 创建 各 subplot 的 关键 字 字典 

" fig kw 创建 figure 时 的 其 他 关键 字 ,比如 plt. subplots (2.2. figsize— (8.60) 





10.1.3 调整 Subplot 周围 的 间距 


Matplotlib 在 默认 情况 下 会 在 Subplot 周围 和 多 个 Subplot 之 间 留 下 一 定 的 空白 边 距 ， 
此 间距 跟 图 像 的 高 度 和 宽度 相关 。 如 果 调 整 了 图 像 的 尺寸 ,空白 间距 也 会 自动 随 之 调整 。 
利用 Figure 的 subplots adjust 函数 就 可 以 轻易 地 修改 空白 间距 : 


In [15]: subplots adjust(left = None, bottom = None, right = None, top = None, wspace = None, 
hspace = None) 
其 中 ,wspace 和 hspace 可 以 用 来 控制 宽度 和 高 度 的 比例 ,也 可 以 用 作 调 整 多 个 Subplot 之 
间 的 空白 间距 。 在 如 图 10-4 所 示 的 这 个 例子 中 ,我 们 已 经 将 图 间 的 间距 降低 到 了 0。 





图 10-4 图 间距 调整 为 0 的 示例 


不 难看 出 ,此 图 中 的 轴 标 签 重 琶 了 。 然 而 ,Matplotlib 不 会 自动 对 标签 是 否 重 登 进行 检 
查 , 只 能 通过 人 工地 设 定 刻度 的 位 置 和 标签 。 


10.1.4 颜色 .标记 和 线 型 的 设置 
Matplotlib 的 plot 函数 可 以 用 来 接收 一 组 X 和 了 坐标 值 ,也 可 以 接收 一 组 颜色 和 线 型 
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的 字符 串 缩写 。 例 如 ,要 根据 X 和 YY 绘制 绿色 虚线 ,可 以 执行 如 下 代码 中 。 


In [18]: ax.plot(x, y, 'g-- ') 


这 种 方式 中 ,用 同一 个 字符 串 来 指定 颜色 和 线 型 非常 方便 。 当 然 , 通 过 以 下 这 种 方式 ， 
可 以 更 为 明确 地 得 到 同样 的 效果 。 


In [19]: ax. plot(x, y, linestyle- '—- ', color = 'g') 


在 Matplotlib 中 ,常用 的 颜色 都 会 有 一 个 对 应 的 缩写 词 ,而 要 使 用 其 他 的 颜色 时 , 则 可 
以 通过 该 颜色 对 应 的 RGB 值 使 用 。 完 整 的 linestyle 列表 请 参见 plot 的 文档 中 。 

此 外 , 线 型 图 上 还 可 以 添加 一 些 标记 ,用 来 强调 某 些 数 据点 。Matplotlib 创建 的 是 连续 
线 型 图 ,因而 可 能 不 太 容 易 看 到 真实 的 数据 点 位 置 。 当 然 ,图 10-5 中 的 标记 也 可 以 在 格式 
字符 串 中 使 用 ,但 标记 的 类 型 和 线 型 都 必须 排 在 颜色 之 后 。 


In [20]: plt.plot(randn(30).cumsum(), 'ko-- ') 
Out[20]: [< matplotlib. lines. Line2D at 0xb86924c >] 





图 10-5 随机 数据 点 的 线 型 图 表示 
对 于 上 述 线 型 表示 ,还 可 以 写成 如 下 更 为 明确 的 形式 。 


In [19]: plot(randn(30).cumsum(), color = 'k', linestyle = 'dashed', marker = 'o') 
在 线 型 图 中 ,数据 点 默认 是 通过 线性 方式 实现 的 ,也 可 以 通过 drawstyle 来 进行 修改 。 


In [18]: plt. plot(randn(30).cumsum(), ko——') 
Out[18]: [<matplotlib. lines. Line2D at 0xb86924c >] 


In [19]: data = randn(30).cumsum() 


In [20]: plt.plot(data, 'k—- ', label= 'Default') 
Out[20]: [< matplotlib. lines. Line2D at Oxba62c8c >] 
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In [21]: plt.plot(data, 'k—-- ', drawstyle = 'steps- post', label = 'steps- post') 
Out[21]: [< matplotlib. lines. Line2D at 0xba758ac >] 


In [22]: plt. legend( loc = 'best') 
Out[22]: < matplotlib. legend. Legend at 0xba75bcc> 


如 图 10-6 所 示 为 drawstyle 实现 线 型 图 的 示例 。 





图 10-6 drawstyle 实现 线 型 图 的 示例 


10.1.5 刻度 .标签 和 图 例 


大 多 数 图 表 的 实现 方式 有 二 : 一 是 使 用 pyplot 接口 实现 更 为 面向 对 象 的 原生 
Matplotlib API; 二 是 通过 pyplot 接口 实现 交互 式 作 用 ,需要 采用 诸如 xlim, xticks 和 
xticklabels 之 类 的 方法 。 这 些 方法 分 别 控制 图 表 的 范围 .刻度 的 位 置 、 刻 度 的 标签 等 9 。 

具体 的 实现 方式 有 以 下 两 种 。 

CD 不 带 参 数 调用 时 , 则 返回 当前 的 参数 值 。 例 如 ,plt. xlim() 返 回 当前 的 X 轴 范 围 。 

(2) 带 参 数 调用 时 , 则 需要 设置 参数 。 例 如 ,plt. xlim([0, 10]) 将 X 轴 的 范围 设置 为 
(T 

以 上 方法 仅 对 当前 或 最 新 创建 的 AxesSubplot 起 作用 ,它们 对 应 subplot 对 象 上 的 两 
个 方法 。 以 xlim 为 例 , 对 应 的 方法 就 是 ax. get_xlim 和 ax. set_xlim。 

1. 设置 标题 ` 轴 标签 ,刻度 以 及 刻度 标签 

我 们 通过 下 面 的 随机 漫步 的 例子 ,说 明 轴 的 自 定 义 。 


In [23]: fig = plt.figure(); 
In [24]: ax = fig.add subplot(1, 1, 1) 


In [25]: ax.plot(randn(1000).cumsum()) 
Out[25]: [< matplotlib. lines. Line2D at Oxbc4da6c >] 
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在 这 个 案例 中 ,生成 1 一 1000 的 正 态 分 布 的 随机 漫步 ,而 轴 的 数值 范围 也 自 定义 为 
1 一 1000。 

如 果 不 希 望 自 定义 轴 刻 度 , 而 想 要 修改 A 轴 的 刻度 ,可 以 通过 设置 set_xticks 和 set_ 
xticklabels 的 数值 来 实现 。 前 一 种 方法 是 通过 设置 Matplotlib 的 刻度 标签 来 实现 的 (如 
图 10-7 所 示 ) ,而 后 一 种 方法 则 可 以 设置 任意 刻度 标签 (如 图 10-8 所 示 ) 。 


图 10-7 set xticks 设置 的 刻度 标签 


图 10-8 set xticklabels 设置 的 刻度 标签 
In [28]: fig = plt.figure(); 
In [29]: ax = fig.add subplot(1, 1, 1) 


In [30]: ax. plot(randn(1000).cumsum( ) ) 
Out[30]: [< matplotlib. lines. Line2D at 0xbd4684c >] 
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In [32]: labels = ax.set xticklabels(['one', 'two', 'three', 'four', 'five'], rotation = 30, 
fontsize- 'small') 


In [31]: ticks = ax.set xticks([0, 250, 500, 750, 1000]) 


In [33]: ax.set title('My first matplotlib plot') 
Out[33]: < matplotlib. text. Text at Oxbdled0c > 


In [34]: ax. set xlabel( 'Stages') 
Out[34]: < matplotlib. text. Text at 0xba911cc > 


2. 添加 图 例 


图 例 是 一 种 用 来 识别 图 表 中 元 素 的 方式 ,添加 图 例 的 方法 有 多 种 ,最 常用 的 就 是 在 添加 
subplot 的 时 候 导入 label 参数 。 


In [35]: fig = plt.figure(); ax = fig.add subplot(1, 1, 1) 


In [36]: ax. plot(randn(1000).cumsum(), 'k', label- 'one') 
Out[36]: [< matplotlib. lines. Line2D at 0xc0e49cc >] 


In [37]: ax. plot(randn(1000).cumsum(), 'k-- ', label = 'two') 
0ut[37]: [< matplotlib.lines.Line2D at 0xc0e7e2c >] 


In [38]: ax. plot(randn(1000).cumsum(), 'k.', label = 'three') 
Out[38]: [< matplotlib. lines. Line2D at 0xc0f238c»] 


除 此 之 外 ,还 可 以 通过 调用 ax. legend O s plt. legend() 来 创建 图 例 。 


In [40]: ax. legend( loc = 'best') 
Out[40]: < matplotlib. legend. Legend at 0xc0e7dcc > 


示例 如 图 10-9 所 示 。 
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图 10-9 图 例 的 添加 示例 
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10.2 Mayavi2 绘图 


Mayavi2 可 以 使 用 Python 语言 编写 ,因此 Mayavi2 既是 一 个 便捷 的 可 视 化 软件 ,又 是 
一 个 可 以 通过 Python 编写 扩展 的 工具 。 它 可 以 自动 嵌 人 到 用 户 自主 编写 的 Python 程序 
中 ,又 可 以 直接 使 用 脚本 的 API 来 实现 快速 绘图 。 


10.2.1 使 用 mlab 快速 绘图 


Mayavi2 的 mlab 模块 提供 了 便捷 的 绘图 函数 。 数 据 准备 好 之 后 ,通过 调用 一 次 mlab 
的 函数 就 可 以 呈现 数据 的 显示 效果 图 ,比较 适合 在 IPython 中 的 交互 式 界面 中 使 用 。 下 面 
的 案例 展示 了 如 何 使 用 mlab 进行 绘图 中 。 


import numpy as np 
from enthought. mayavi import mlab 


x, Y = np.ogrid[ -2:2:20j, -2:2:20j] 
z =x * npexp( - x««2 - ys«2) 


pl = mlab.surf(x, y, z, warp scale = "auto") 

mlab.axes(xlabel- 'x', ylabel- 'y', zlabel- 'z') 

mlab.outline(pl) 

上 述 案 例 实现 了 绘制 三 维 曲面 的 图 ,图 10-10 展示 了 完成 三 维 的 网 格 图 。 

在 上 述 代码 中 ,要 先 通 过 一 条 语句 载 和 人 mlab 库 : 


from enthought.mayavi import mlab 


mlab 载 入 之 后 ,就 可 以 通过 调用 mlab. surf 来 绘 

制 三 维 空间 中 的 曲面 。 曲 面 上 的 每 个 点 ,可 以 由 surf 

函数 中 的 三 个 数组 参数 x,y,z 给 出 。 需 要 注意 的 是 ， 

数组 x.y 是 由 ogrid 对 象 计算 得 出 的 ,因此 分 别 是 大 

小 为 nX1 M 10€ n 的 数组 ,而 x 则 是 一 个 nXn 的 数 

组 。 而 mlab. axes 和 mlab. outline 函数 , 则 分 别 用 于 

图 10-10 使 用 Mayavi SL SD 曲面 在 三 维 空 间 中 添加 坐标 轴 以 及 曲面 图 形 的 外 框 。 而 

surf 函数 绘制 的 曲面 ,向 X-Y 二 维 平面 的 投影 则 是 一 

个 等 宽度 的 网 格 。 当 我 们 绘制 更 为 复杂 的 三 维 曲面 时 ,可 以 采用 mesh 函数 实现 ,下 面 的 这 
一 个 mesh 函数 可 以 实现 三 维 旋 转 体 。 





4 -*- coding: utf-8 - * - 
from numpy import * 
from enthought.mayavi import mlab 


# Create the data. 

dphi, dtheta = pi/20.0, pi/20.0 

[phi, theta] = mgrid[0:pi + dphi * 1.5:dphi,0:2 * pi * dtheta * 1. 5:dtheta] 
m0 = 4; ml = 3; m2 = 2; m3 = 3; m4 = 6; n5 = 2; n6 = 6; n7 = 4; 
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r = sin(m0* phi) **ml + cos(m2* phi) ** m3 + sin(m4 * theta) ** m5 + cos(m6 * theta) xx m7 
x = r* sin(phi) * cos(theta) 

y = r*cos(phi) 

z = r* sin(phi) * sin(theta) 

# View it. 


S = mlab.mesh(x, y, z, representation = "wireframe", line width- 1.0) 
mlab. show() 


示例 图 如 图 10-11 所 示 。 

与 surf 类 似 , mesh 函数 中 的 三 个 数组 参数 z， 
2，,x 也 是 二 维 数组 ,三 个 数组 中 相同 下 标 对 应 的 
三 个 元 素 正好 组 成 曲面 上 一 个 点 的 三 维 坐标 。 不 
同 点 之 间 的 连接 关系 是 由 边 和 面 实 现 的 ,它们 由 
其 在 数组 中 的 相对 位 置 关系 来 决定 。 

上 述 程序 绘制 得 到 的 曲面 是 一 个 三 维 的 旋转 
体 ,曲面 中 各 个 点 的 三 维 坐 标 是 通过 球面 坐标 系 
来 计算 的 ,并 按照 坐标 转换 公式 ,将 球面 坐标 转换 
为 X-Y-Z 空间 坐标 。 图 10-11 mesh 函数 绘制 的 三 维 旋转 体 

如 果 需 要 指定 绘制 曲线 的 表现 形式 ,可 以 通 
过 传递 特定 的 参数 给 mesh 函数 。 

CD surface: 该 参数 代表 默认 值 ,在 绘制 曲面 时 代表 默认 参数 。 

(2) wireframe: 该 参数 代表 绘制 的 边框 ,可 以 通过 dphi 和 dtheta 来 修改 线条 的 大 小 。 
例如 ,可 以 通过 调用 下 面 的 程序 实现 指定 线条 宽度 的 图 形 : 





S = mlab.mesh(x, y, z, representation = "wireframe", line width- 1.0 ) 


示例 图 如 图 10-12 所 示 。 

下 面 详 细 列举 了 mlab 中 提供 的 常用 绘图 函数 。 

(1) points3d 和 plot3d 函数 :通过 向 它们 传递 三 个 一 维 的 坐标 m. yz. points3d 函数 可 
以 用 来 绘制 三 维 空间 中 的 一 系列 坐标 点 ,而 plot3d 函数 则 用 来 绘制 一 条 曲线。 图 10-13 展 
示 的 是 使 用 plot3d 函数 绘制 的 洛 仑 效 吸 引子 的 运动 轨迹 。 





图 10-12 mesh 函数 绘制 的 特定 宽度 曲线 图 10-13 plot3d 函数 绘制 的 洛 伦 兹 吸引 子 运 动 轨迹 
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具体 的 绘图 程序 代码 如 下 所 示 。 
mlab.plot3d(track1[:,0], track1[:,1], track1[:,2],color- (1,0,0), tube radius - 0.1) 


其 中 ,trackl 代表 轨迹 坐标 的 数组 ,可 以 将 其 拆 分 成 为 X,Y,Z 轴 上 的 三 个 分 量 ,以 传递 给 
plot3d 函数 进行 绘图 。tube_radius 是 用 来 指定 曲线 粗细 的 参数 ,而 曲线 是 采用 较 细 的 圆 管 
绘制 的 。 

(2) imshow, surf, contour_surf 函数 : 上 述 三 个 函数 都 可 以 用 来 接收 一 个 二 维 数组 ， 
数组 的 第 一 个 值 代表 X 轴 的 坐标 ,而 第 二 个 值 则 代表 Y 轴 的 坐标 。imshow 函数 用 于 将 此 
二 维 数组 展示 为 一 个 图 片 ,图 上 每 个 点 的 颜色 可 以 用 数组 中 每 个 元 素 的 值 来 代表 。surf 函数 
用 于 将 此 二 维 数组 绘制 成 三 维 空间 中 的 曲面 ,数组 中 一 个 元 素 的 值 代表 Z 轴 坐 标 中 的 一 个 点 。 
contour. surf 函数 用 于 绘制 曲面 中 的 等 高 线 。 图 10-14 是 由 imshow 函数 绘制 曲面 的 结果 。 

当然 ,同样 的 数据 也 可 以 采用 contour_surf 函数 来 绘制 曲面 等 高 线 , 其 效果 如 图 10-15 所 示 。 


图 10-14 imshow 函数 绘制 的 曲面 和 等 高 线 图 10-15 contour surf 函数 绘制 的 曲面 等 高 线 





10.2.2  Mayavi 腐 人 到 界面 中 


Mayavi 除 作 为 应 用 程序 使 用 外 ,也 可 以 通过 使 用 traits 属性 嵌入 到 用 户 应 用 程序 界面 
中 ,下 面 的 程序 则 展示 了 这 一 过 程 中 。 


#- * - coding: ut£-8 - * - 

from enthought.traits.api import * 

from enthought. traits. ui. api import * 

from enthought. tvtk.pyface. scene editor import SceneEditor 

from enthought.mayavi.tools.mlab scene model import MlabSceneModel 
from enthought.mayavi.core.ui.mayavi scene import MayaviScene 


class DenoApp(HasTraits): 
plotbutton = Button(u" 绘 图 ") 
Scene = Instance(MlabSceneModel, ()) fmayavi 场景 


view = View( 
VGroup( 

Item(name = 'scene', 
editor = SceneEditor(scene class = MayaviScene)， 井 设置 mayavi 的 编辑 器 
resizable = True, 
height = 250, 
width = 400 

)» 

'plotbutton', 
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show labels - False 


) 
title= u"fE TraitsUI 中 嵌入 Mayavi" 
) 


def plotbutton fired(self): 
self.plot() 


def plot(self): 
g 7 self.scene.mlab.test mesh() 


app - DemoApp() 
app.configure traits() 


此 段 程序 的 初始 部 分 导入 了 traits 和 traits. ui 库 , 还 导入 了 SceneEditor, MlabSceneModel 
和 MayaviScene 等 三 个 类 。MlabSceneModel 类 用 于 包装 mlab 的 场景 模型 ,属于 模型 范 
畴 。 因 此 ,可 以 通过 下 述 程序 实现 : 

Scene = Instance(MlabSceneModel, ( )) 


上 述 程序 创建 了 traits 属性 的 场景 ,使 它 成 为 MlabSceneModel 类 中 的 对 象 。 此 外 ,还 
要 在 视图 中 创建 一 个 编辑 器 ,使 它 能 够 正确 地 显示 场景 代表 的 模型 。 
Item(name = 'scene', 
editor = SceneEditor(scene class = MayaviScene), iit mayavi 的 编辑 器 
resizable = True, 
height = 250, 
width= 400 
) 
其 中 ,SceneEditor 是 一 种 工厂 类 ,用 来 创建 场景 编辑 器 。 它 可 以 通过 关键 字 scene class 类 
指定 场景 对 象 类 MayaviScene。 
此 外 ,我 们 在 程序 中 还 构造 了 一 个 plotbutton 按钮 ,可 以 通过 此 按钮 调用 _plotbutton_ 
fired 函数 ,进而 调用 绘制 场景 的 函数 plot。 


g = self.scene.mlab.test mesh() 


通过 调用 其 test. mesh 测试 函数 ,就 可 以 在 场景 中 创建 一 个 如 图 10-16 所 示 的 曲面 体 。 











图 10-16 Mayavi 嵌入 到 TraitsUI 界面 中 
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10.3 其 他 图 形 化 工具 


除了 Matplotlib 和 Mayavi 以 外 ,Python 中 还 可 以 采用 下 列 类 库 实现 图 表 图 形 的 
绘制 中 。 

(1) Cairoplot: http://linil. wordpress. com/2008/09/16/cairoplot-11/, Cairoplot 在 
网 页 上 的 展示 效果 强 于 flex 中 的 图 表 实 现 能 力 ,但 此 工具 目前 更 多 地 在 Linux 平台 上 使 
用 ,与 Windows 平台 兼容 性 较 差 。 

(2) Chaco: http://code. enthought. com/chaco/, Chaco 是 一 个 二 维 的 绘图 工具 ,其 
中 文教 程 可 参考 http://hyry. dip. jp/pydoc/chaco. intro. html, 

(3) Python Google Chart: http://pygooglechart. slowchop. com/, Python Google 
Chart 是 对 Google chart API 的 一 个 完整 封装 。 

(4) PyCha: https://bitbucket. org/lgs/pycha/wiki/ Home, PyCha 是 Cairo 类 库 的 一 
种 封装 形式 , 它 可 以 为 实现 轻 量 级 的 应 用 ,还 可 以 实现 一 系列 的 参数 优化 。 

(5) PyOFC2: http://btbytes. github. com/pyofc2/。PyOFC2 是 Open Falsh Library 
的 Python 类 库 ,其 实现 的 图 形 具 有 Flash 效果 ,可 以 通过 鼠标 拖 动 来 动态 地 显示 图 标 信息 。 

(6) Pychart; http://home. gna. org/pychart/, PyChart 可 以 用 来 创建 高 品质 封装 的 
图 表 库 ,包括 PDF、PNG、SVG 等 格式 的 图 表 库 。 

(7) PLPlot: http://plplot. sourceforge. net/, PLPlot 是 一 种 可 以 用 来 创建 科学 图 表 
的 开源 跨 平 台 软 件 开发 包 。 此 开发 包 以 C 类 库 作 为 核心 ,支持 C 类 库 中 的 各 种 编程 语言 ， 
包括 CC++ ,FORTRAN,Java,Python,Perl 等 。 

(8) Reportlab: http://www. reportlab. com/software/opensource/, Reportlab 支持 
在 PDF 中 画图 表 , 它 的 实现 可 以 参考 http://www. codecho. com/installation-and-example- 
of-reportlab-in-python/ 。 

(9) VPython: http://www. vpython. org/index. html, VPython 是 Visual Python 的 
简写 ,是 由 卡耐基 梅 隆 大 学 的 在 校 学 生 David Scherer 于 2000 年 撰写 的 一 个 Python — 4f 
绘图 模块 。 
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1. 简 述 Matplotlib 支持 哪些 功能 。 
2. 简 述 Mayavi2 有 哪些 特征 。 
3. 除了 Matplotlib 和 Mayavi 以 外 ,Python 中 还 可 以 采用 哪些 类 库 实 现 图 表 图 形 的 


4. 如 何 使 用 Python 在 一 张 图 中 绘制 2X2 的 4 幅 图 ? 
5. 如 何在 Python 中 添加 图 例 ? 








11.1 Hadoop 系统 架构 


Hadoopc 是 开源 社区 Apache 的 一 个 基于 廉价 商业 硬件 集群 和 开放 标准 的 分 布 式 数据 
存储 及 处 理 平台 ,也 是 一 种 事实 上 的 大 数据 计算 标准 。Hadoop 源 自 于 2002 年 的 一 个 开源 
网 络 搜索 引擎 项 目 Apache Nutch” (是 Lucenet 引 项 目的 一 部 分 ),2003 年 Google 公布 了 它 
的 分 布 式 文件 系统 GFSCGoogle File System) 中 用 于 分 布 式 系统 处 理 , Apache Nutch 项 目 
随即 模仿 GFS 开发 了 自己 的 分 布 式 文件 系统 NDFS (Nutch Distributed File System), 
2004 年 ,Google 发 布 了 MapReduce 计算 模型 回 ,2005 年 ,Nutch 跟 进 提供 了 MapReduce Bt 
型 的 开源 实现 。2006 年 1 月 ,Nutch 项 目的 NDFS 和 MapReduce 分 离 出 来 独立 为 一 个 命 
名 为 Hadoop 的 开源 项 目 (Hadoop 名 字 来 自 于 Hadoop 创始 人 Doug Cutting 的 儿子 的 一 个 
玩具 象 ) ,成 立 之 初 Hadoop 仅 包含 5000 fr NDFS 代码 和 6000 f? MapReduce 代码 。2006 
年 4 月 ,Hadoop 0. 1. 0 版 发 布 ,到 2006 年 10 月 Hadoop 已 运行 在 600 台 计算 机 构成 的 集群 
上 。2007 年 6 月 时 仅 有 Yahoo! 在 内 的 三 个 公司 采用 Hadoop 集群 ,到 2008 4E 1 月 已 有 二 
十 家 大 公司 采用 。2008 年 5 H . Hadoop 集群 赢得 1TB 数据 排序 冠军 (采用 910 个 节点 的 
集群 ,对 ITB 数据 排序 时 间 仅 为 209s)。2009 年 3 月 , Yahoo! 创下 了 17 个 Hadoop 集群 
运行 在 24 000 台 机 器 上 的 记录 。2009 年 5 月 , Hadoop 集群 更 把 1TB 数据 的 排序 时 间 从 
209s 缩短 到 62s。 这 以 后 , Hadoop A JE 3 3E. NDFS 演化 为 HDFS(Hadoop Distributed 
File System)? ,一 系列 功能 构件 和 开发 工具 加 入 到 Hadoop 平台 中 ,使 得 Hadoop 演化 成 
了 一 个 开放 式 架 构 、 高 可 用 性 、 高 扩展 性 、 高 容错 性 、 支 持 多 种 编程 语言 的 分 布 式 计算 生态 

从 系统 架构 角度 看 ,Hadoop 通常 部 署 在 低 成 本 的 Intel/Linux 硬件 平台 上 , 即 由 多 台 
装 有 Intel x86 处 理 器 的 服务 器 或 PC 通过 高 速 局 域 网 构成 一 个 计算 集群 ,在 各 个 节点 上 运 
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行 Linux 操作 系统 (目前 常见 的 是 CentOS 7 s Ubuntu?) ) ,如 图 11-1 所 示 。 











图 11-1 Hadoop 集群 系统 架构 


Hadoop 在 安装 和 和 运行 时 有 三 种 模式 可 供 选 择 : 单机 模式 ,虚拟 分 布 模式 ,完全 分 布 
模式 。 

(1) 单机 模式 : Hadoop 安装 时 的 默认 模式 ,不 对 配置 文件 进行 修改 ,使 用 本 地 文件 系 
统 ,Hadoop 不 启动 NameNode.DataNode JobTracker Task Tracker 等 守护 进程 ,这 是 一 种 
用 来 对 MapReduce 程序 进行 查 错 和 调试 的 模式 。 

(2) 虚拟 分 布 模式 : 在 一 台 机 器 上 用 软件 模拟 多 节点 集群 ,每 个 守护 进程 都 以 Java 进 
程 形式 运行 。 与 单机 模式 比较 增加 了 代码 调试 功能 ,允许 检查 内 存 使 用 情况 和 读 写 HDFS 
文件 系统 。 这 一 模式 需 修改 三 个 配置 文件 : core-site. xml, hdfs-site. xml, mapred-site. xml 
并 格式 化 文件 系统 。 

(3) 完全 分 布 模式 : Hadoop 安装 运行 在 多 台 主 机 上 ,构成 一 个 真实 的 Hadoop 集群 ,在 
所 有 的 节点 上 安装 JDK 和 Hadoop, 相 互通 过 高 速 局 域 网 连接 。 各 节点 间 设 置 SSH 免 密码 
登录 ,将 各 个 从 节点 生成 的 公 钥 添加 到 主 节点 的 信任 列表 。 这 一 模式 需要 修改 三 个 配置 文 
TF: core-site. xml、hdfs-site. xml、mapred-site. xml 并 格式 化 文件 系统 。 

1. Hadoop 集群 配置 


1) 硬件 配置 

Hadoop 集群 内 的 计算 节点 类 型 实际 只 有 两 类 : NameNode( 执 行 作业 调度 .资源 调配 、 
系统 监控 等 任务 ) 和 DataNode( 承 担 具 体 的 数据 计算 任务 ), 因 此 节点 机 器 的 选 型 不 宜 超 过 
两 种 ,针对 不 同 需要 的 大 .小 型 Hadoop 集群 的 硬件 配置 参数 建议 见 表 11-1。 应 当 注 意 ， 
Hadoop 实际 生产 系统 可 根据 项 目 需要 进行 灵活 的 硬件 系统 配置 ,比如 NameNode 可 以 配 
置 两 台 ( 另 一 台 称 为 Secondary NameNode. 5j Active NameNode 保持 同步 ,随时 可 以 进行 
切换 ) 。 小 型 集群 中 NameNode 与 JobTracker 两 个 程序 部 署 在 同一 台 机 器 上 ,但 在 大 型 集 
群 中 , NameNode 与 JobTracker 则 部 署 在 不 同 机 器 上 以 提高 运行 效率 。 实 际 应 用 时 
Hadoop 集群 的 机 器 数 可 随 着 需要 增长 ,这 种 动态 可 扩展 性 正 是 Hadoop 平台 的 优势 
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2) 软件 配置 

Hadoop 集群 的 各 个 节点 均 需 安装 如 下 软件 系统 。 

(D. LinuxO/S 如 Fedora, Ubantu, CentOS 均 可 ,也 可 以 在 其 他 操作 系统 平台 上 安装 
Linux 虚拟 机 。 

(2) JDK 1.6 以 上 版 本 。 

(3) 安装 并 设置 SSH(Security Shel) ZEHN. Hadoop NameNode 需要 启动 集群 中 
所 有 节点 的 守护 进程 ,而 这 个 远程 调用 需要 通过 SSH 无 密码 登录 来 实现 ,因此 需要 将 所 有 
节点 机 器 配置 为 NameNode 可 以 无 密码 登录 。 

3) 网 络 配置 

常规 的 Hadoop 集群 包含 两 层 网 络 结构 : NameNode 到 机 架 (Rack) 的 网 络 连接 ,以 及 
机 架 内 部 的 DataNode 之 间 的 网 络 连接 ,如 图 11-2 所 示 。 每 个 机 架 (Rack) 内 有 30 一 40 个 
DataNode 服务 器 ,配置 一 个 1GB 的 交换 机 ,并 向 上 传输 到 一 个 核心 交换 机 或 者 路 由 器 
(1GB 或 以 上 )。 相 同 机 架 内 节点 间 的 带宽 总 和 要 大 于 不 同 机 架 间 的 带宽 总 和 。 
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Æ 11-2 Hadoop 集群 网 络 拓扑 


如 图 11-3 所 示 , 主 节点 (Master Node, 包 括 NameNode 和 Secondary NameNode) 之 上 
运行 的 程序 或 进程 有 : 主 节点 程序 Namenode,Jobtracker 守护 进程 ( 即 所谓 的 主 守护 进 
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图 11-3 Hadoop 集群 软件 配置 
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F) ,此 外 还 包含 管理 集群 所 用 的 Hadoop 工具 程序 和 集群 监控 浏览 器 。 从 节点 (Slave node 
B] DataNode) 上 运行 的 程序 包括 从 节点 程序 Datanode 和 任务 管理 进程 Tasktracker。 两 种 
节点 上 运行 程序 的 不 同 之 处 在 于 : 主 节点 程序 提供 Hadoop 集群 管理 ,协调 和 资源 调度 功 
能 ,而 从 节点 程序 主要 实现 Hadoop 文件 系统 (HDFS) 存 储 功 能 和 节点 数据 处 理 功 能 。 


表 11-1 Hadoop 集群 配置 参数 






























































Hadoop 
硬件 系统 操作 系统 网 络 配 置 
集群 
NameNod 
i 两 组 4 核 /8 B 
ol racker 
NameNode ZooK CPU 32GB 以 上 内 1GB/s 以 太 网 口 X2 
OKeeper 
小 型 全 Tf 2TB 磁 盘 
集群 Hmaster 
Data Node 两 组 4 核 CPU 16GB 
DataNode Ee 以 上 内 存 TTP EE 1GB/s 以 太 网 口 X2 
HBase RegionServer 
NameNode 两 组 8 核 CPU 64GB 
NameNod 2GB/s b Hx2 
(直立 机 器 ) PemeNode 以 上 内 存 STB RE 人 
JobTracker 
JobTracker 两 组 4 核 CPU 32GB 
ZooK Fedora CentOS | 1GB/s 以 Hx2 
(独立 机 器 ) Do eer 以 上 内 存 1TB 磁 盘 | o Oe ent HEN 
Hmaster Ubuntu Linux 
(es backup NameNode 虚拟 机 JDK 
SR 
1.6 IJ 
Re zna NameNode ibn Pii 以 上 版 本 2GB/s 以 太 网 口 X2 
大 型 | (独立 机 器 ) | 
集群 Hmaster 
kı kı ki 
backup Backup JobTracker 两 组 4 核 CPU 32GB 
JobTracker | ZooKeeper 以 上 内 存 1TB 磁 盘 2GB/s 以 太 网 口 X2 
(独立 机 器 ) Hmaster 
DataNode 
TaskTracker 
HBase RegionServer | 两 组 4 核 CPU 32GB 
DataNod 2GB/s 以 Dx2 
ataNode | 只 在 一 个 节点 部 署 | 以 上 内 存 2TB 磁 盘 RN 
ZooKeeper 和 Hmaster. 
使 ZK 数目 为 奇数 




















2. Hadoop 软件 架构 

Hadoop 平台 的 核心 部 分 为 提供 海量 数据 存储 功能 的 HDFS 文件 系统 和 提供 数据 处 理 
功能 的 MapReduce 模块 。 早 期 的 Hadoop 1. 0 版 本 只 包含 HDFS 和 MapReduce, 后 来 的 
Hadoop 2.0 版 本 又 加 入 了 YARN( 集 群 资源 管理 器 )"' 中 及 其 他 多 种 开发 工具 包 , 如 图 11-4 
所 示 。 

从 软件 架构 角度 看 ,Hadoop 系统 主要 由 三 个 板块 组 成 : 基于 HDFS/HBase 的 数据 存 
储 系统 、 基 于 YARN/ZooKeeper 的 管理 调度 系统 ,以 及 支持 不 同 计算 模式 的 处 理 引 擎 ( 支 
持 离 线 批 处 理 的 MapReduce、 支 持 内 存 计算 的 Spark、 支 持 有 向 图 处 理 的 Tez 等 ) 。 
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HADOOP 1.0 HADOOP 2.0 


(execution engine) 











Æ 11-4 Hadoop 1.0 vs. Hadoop 2. 0 


Hadoop 的 数据 存储 系统 包括 : 分 布 式 文件 系统 HDFS ( Hadoop Distributed File 
System) 9 、 分 布 式 非 关系 型 数据 库 H Base"? ,数据 仓库 及 数据 分 析 工 具 Hive? 和 Pig? ， 
以 及 用 于 数据 采集 .转移 和 汇总 的 工具 Sqoop?" 和 Flume, HDFS 文件 系统 构成 了 
Hadoop 数据 存储 体系 的 基础 , 除 HDFS 外 ,在 Hadoop 平台 上 支持 的 文件 系统 还 包括 ， 
FTP(File Transfer Protocol) 文 件 传输 系统 09 ; Amazon S3(Simple Storage Service) 文 件 系 
统 57 ,主要 用 于 Amazon 的 弹性 计算 云 架构 ; 微软 的 Windows Azure Storage Blobs 
(WASB) 文 件 系统 5 ,这 是 微软 开发 的 在 HDFS 之 上 的 数据 读 写 层 ,用 于 微软 的 Azure 云 
存储 系统 的 数据 读 写 。 

Hadoop 的 资源 调度 管理 工具 包括 : 提供 分 布 式 协调 服务 管理 的 ZooKeeperc ,负责 作 
业 调 度 的 Oozie?? ,提供 集群 配置 ,管理 和 监控 功能 的 Ambari?? ,大 型 集群 监控 系统 
Chukwa2 ,以 及 一 个 新 的 集群 资源 调度 管理 系统 YARN 。 

Hadoop 提供 的 计算 引擎 或 计算 模型 包括 : 离线 批 处 理 MapReduce、 图 并 行 计算 框架 
Hama"! 和 Giraph?? ` 流 计算 Storm"? 内存 计算 Sparkc ,交互 式 计算 Drill” ,以 及 基于 
YARN 的 有 向 无 环 图 (DAG) 计 算 框架 Te, A Ah, Hadoop 还 提供 一 系列 计算 分 析 工 
具 , 如 支持 数据 挖掘 与 机 器 学 习 的 Mahout?? .用 于 节点 间 RPC 通信 支持 多 语言 数据 序列 
化 框架 Avro! 数据 可 视 化 分 析 工 具 Huets5 等 ,上 述 系 统 或 工具 大 多 为 Apache 的 独立 开 
源 项 目 。 

到 目前 为 止 , Hadoop 平台 上 的 数据 存储 管理 体系 .各 种 计算 模型 与 计算 引擎 .数据 控 
掘 分 析 工 具 , 以 及 一 整套 集群 系统 资源 调度 和 管理 体系 已 构成 了 一 个 支持 大 数据 存储 、 计 
算 、 分 析 和 表达 的 完整 的 生态 系统 ,如 图 11-5 所 示 。 基 本 上 大 数据 计算 所 需要 的 各 种 模型 
和 工具 都 可 以 在 Hadoop 平台 上 得 到 支持 ,这 也 使 得 Hadoop 成 为 工业 界 事 实 上 的 大 数据 
计算 基础 平台 和 技术 标准 。 

Hadoop 生态 系统 目前 所 包含 的 各 个 计算 工具 或 开源 项 目的 家 族 列表 见 图 11-6; 
Hadoop 生态 圈 各 个 组 件 所 提供 功能 服务 的 总 结 见 表 11-2, 它 具有 以 下 几 个 方面 的 特性 。 

(1) 高 可 靠 性 ; 

(2) 高 效 性 ; 
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11-6 Hadoop 计算 工具 家 族 


(3) 高 扩展 性 ; 

(4) 高 容错 性 ; 

(5) 成 本 低 ; 

(6) 运行 在 Linux 平 台 上 ; 
C) 支持 多 种 编程 语言 。 


dei 大 数据 分 析 与 计算 


组 dt 
Hadoop 


Common 


配置 方式 


Hadoop 自 带 


表 11-2 Hadoop 平台 各 个 组 件 列表 

功 能 
Hadoop 最 底层 的 一 个 通用 模块 ,为 Hadoop 各 组 件 提供 各 种 通用 服 
务 , 如 配置 文件 和 日 志 操 作 等 





HDFS 


Hadoop 自 带 


分 布 式 文件 系统 ,负责 管理 所 有 文件 系统 的 元 数据 及 存储 了 真实 数据 
的 DataNode. HDFS 具有 以 下 特性 : 

* 可 自我 修复 的 分 布 式 文件 存储 系统 

。 高 可 扩展 性 ,无 须 停机 动态 扩容 

。 高 可 靠 性 ,数据 自动 检测 和 复制 

* 高 吞吐 量 访问 ,消除 访问 瓶颈 

。 使 用 低 成 本 存储 和 服务 器 





MapReduce 


Hadoop 自 带 


分 布 式 并 行 编程 模型 





YARN 


Hadoop 2.2 以 上 


资源 管理 和 调度 器 





Hive 


单独 安装 包 


一 种 建立 在 Hadoop 上 的 数据 仓库 架构 ,提供 了 : 
。 一 套 方便 的 实施 数据 抽取 (ETL) 的 工具 

。 一 种 让 用 户 对 数据 描述 其 结构 的 机 制 

。 对 海量 数据 进行 查询 和 分 析 





HBase 


单独 安装 包 


Hadoop 上 的 非 关系 型 的 分 布 式 数据 库 





Cassandra 


单独 安装 包 


一 个 高 性 能 、 可 线性 扩展 、 高 有 效 性 数据 库 , 可 以 运行 在 商用 硬件 或 云 
基础 设施 上 打造 完美 的 任务 关键 性 数据 平台 





Pig 


单独 安装 包 


一 个 基于 Hadoop 并 运用 MapReduce fll HDFS 实现 大 规模 数据 分 析 的 

平台 。 它 为 海量 数据 的 并 行 处 理 提供 了 操作 以 及 编程 接口 。Pig 的 编 

程 语言 为 Pig Latin, 具 有 如 下 特点 。 

。 易 于 编程 : 既 有 类 似 SQL 的 灵活 可 变性 ,又 有 过 程式 语言 的 数据 流 
特点 

。 优化 策略 : 系统 具备 自动 优化 执行 过 程 的 能 力 ,使 得 用 户 更 加 关注 
于 语义 

。 可 扩展 性 : 用 户 可 自行 设计 函数 来 实现 特定 功能 





Sqoop 


单独 安装 包 


一 个 用 来 将 Hadoop 和 关系 型 数据 库 中 的 数据 相互 转换 的 工具 ,可 以 
将 一 个 关系 型 数据 库 中 数据 导入 Hadoop 的 HDFS 中 ,也 可 以 将 
HDFS 中 数据 导入 关系 型 数据 库 中 





Oozie 


单独 安装 包 


Hadoop 上 的 工作 流 管理 系统 及 作业 调度 器 





ZooKeeper 


单独 安装 包 


提供 分 布 式 协调 一 致 性 服务 ,一 个 针对 大 型 分 布 式 系统 的 可 靠 协调 系 
统 , 提 供 的 功能 包括 配置 维护 ` 名 字 服 务 、 分 布 式 同步 ,组 服务 等 





Mahout 


单独 安装 包 


支持 数据 挖掘 与 机 器 学 习 的 工具 ,当前 支持 : 

* 推荐 挖掘: 搜集 用 户 动作 并 以 此 给 用 户 推荐 可 能 喜欢 的 事物 

。 RE: 收集 文件 并 进行 相关 文件 分 组 

t 分 类 : 从 现 有 的 分 类 文档 中 学 习 , 寻 找 文档 中 的 相似 特征 ,并 为 无 标 
签 的 文档 进行 正确 的 归 类 

t 频繁 项 集 挖掘 : 将 一 组 项 分 组 ,并 识别 哪些 个 别 项 会 经 常 一 起 出 现 





单独 安装 包 


流 计 算 框 架 





单独 安装 包 


类 似 于 Hadoop MapReduce 的 通用 并 行 框 架 





单独 安装 包 


交互 式 计算 平台 








单独 安装 包 





运行 在 YARN 之 上 的 下 一 代 Hadoop 查询 处 理 框架 
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Sk 


Hama 单独 安装 包 图 并 行 计算 框架 
Giraph 单独 安装 包 图 并 行 计算 框架 
Flume 是 一 个 高 效 的 收集 、 聚 合 和 传输 日 志 数 据 的 系统 。Flume 通过 
ZooKeeper 保证 配置 数据 的 一 致 性 和 可 用 性 。Flume 具有 如 下 特点 。 
* 可 靠 性 : 提供 端 到 端的 可 靠 传 输 ,数据 本 地 化 保存 等 可 靠 性 选项 
。 可 管理 性 : 通过 ZooKeeper 保证 配置 数据 的 可 用 性 ,并 使 用 多 个 
Master 管理 所 有 节点 
* 可 扩展 性 : 可 用 Java 语言 实现 新 的 自 定义 功能 
Ambari 单独 安装 包 Hadoop 快速 部 署 工具 ,支持 Apache Hadoop 集群 的 供应 管理 和 监控 
一 种 高 吞吐 量 的 分 布 式 发 布 订阅 消息 系统 ,可 以 处 理 消 费 者 规模 的 网 
Kafka 单独 安装 包 站 中 的 所 有 动作 流 数据 
一 个 开源 的 数据 收集 系统 ,用 以 监视 大 型 分 布 系统 。 建 立 于 HDFS 和 
Map/Reduce 框架 之 上 ,继承 了 Hadoop 的 可 扩展 性 和 稳定 性 。 
Chukwa 同样 包含 一 个 灵活 和 强大 的 工具 包 , 用 以 显示 ,监视 和 分 析 结 
果 , 以 保证 数据 的 使 用 达到 最 佳 效果 
Avro 单独 安装 包 数据 存储 格式 
提供 数据 的 映射 表 和 存储 管理 服务 ,为 类 似 Pig, MapReduce 及 Hive 这 
些 数据 处 理工 具 提 供 互 操作 性 。 它 包括 : 
。 提供 一 个 共享 模式 和 数据 类 型 机 制 
* 提供 一 个 抽象 表 , 这 样 用 户 就 不 需要 关注 数据 存储 的 方式 和 地 址 








Flume 单独 安装 包 











Chukwa 单独 安装 包 








HCatalog “| 单独 安装 包 








3. Hadoop 商业 发 行 版 

除了 开源 免费 版 Apache Hadoop 之 外 ,一 些 致力 于 Hadoop 平 台 技 术 解 决 方案 的 商业 
公司 也 推出 了 各 自 的 商业 发 行 版 Hadoop 或 是 类 似 于 Hadoop 的 大 数据 计算 分 析 平 台 ( 这 
些 商 业 产 品 多 数 也 提供 一 个 免费 的 非 全 功能 的 测试 版 ) ,目前 常见 的 有 Hortonworks 的 
HDP( Hortonworks Data Platform) 9? .Cloudera 的 CDH(Cloudera Distributed Hadoop) ?! 、 
MapR Hadoop?", Amazon 的 Elastic MapReduce (简称 EMR)U9?, IBM InfoSphere 
BigInsights?* 、 微 软 运行 在 Windows 环境 下 的 Hadoop 发 行 版 HDInsight and Hadoop for 
Windows™ 4, REECH Apache Hadoop 的 开源 版 免费 提供 ,为 何 IT 公司 在 构建 大 数据 
分 析 平 台 时 仍然 主要 考虑 Hadoop 的 商业 发 行 版 ? 这 是 因为 Apache Hadoop 虽然 具有 开 
放 式 架构 和 开放 标准 、 开 发 工具 丰富 、 扩 展 性 好 、 使 用 低 端 通用 设备 上 的 优势 ,但 作为 开源 社 
区 共同 开发 的 产品 ,其 标准 统一 性 、 软 件 可 靠 性 、 代 码 质 量 难以 得 到 保证 ,更 重要 的 ,开源 社 
区 无 法 提供 符合 工业 界 标准 的 稳定 可 靠 的 产品 技术 支持 。 而 且 , 商 业 产品 供应 商 在 提供 质 
量 可 靠 的 产品 和 技术 支持 的 同时 ,往往 还 可 根据 用 户 特 定 需求 对 其 产品 做 定制 化 改进 ,以 满 
足 客 户 特 定 的 开发 需要 ,这 更 是 开源 技术 难以 做 到 的 。 一 般 而 言 , 开 源 Hadoop 包含 如 下 核 
心 组 件 。 

(1) Hadoop Common 

(2) HDFS 

(3) MapReduce 
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(4) YARN 

商业 发 行 版 Hadoop 产品 通常 是 在 上 述 Hadoop 核心 组 件 之 外 ,打包 封装 一 些 基 于 
Hadoop 的 各 类 开发 工具 (如 ZooKeeper. Oozie. HBase/Hive. Pig. Mahout 等 ) ,另外 再 加 入 
一 些 自己 开发 的 工具 ,构成 一 个 完整 的 商业 发 行 版 。 以 2011 年 雅虎 与 硅谷 风 投 公司 
Benchmark Capital 合资 组 建 的 Hortonworks 公司 为 例 , 其 主打 产品 是 Hortonworks Data 
Platform HDP) . HDP 除了 上 述 的 Hadoop 核心 组 件 外 ,还 包含 Ambari( 一 款 开源 的 集群 
安装 和 管理 系统 )、HCatalog( 一 个 元 数据 管理 系统 )、Oozie( 作 业 调 度 器 )、Sqoop( 数 据 转 换 
工具 ) ,Flume( 日 志 数 据 采 集 和 管理 ) 等 开源 工具 ,另外 还 加 入 了 Hortonworks 自己 开发 的 
集群 安全 管理 工具 Knox 和 数据 生命 周期 管理 工具 Falcon, 如 图 11-7 所 示 。HDP 商业 版 具 
有 如 下 特点 。 








SF. HORTONWORKS 
Hortonworks DATA PLATFORM 





图 11-7 Hortonworks Data Platform(HDP) 产 品 架构 


(1) 集成 和 封装 : HDP 包括 稳定 版 本 的 Apache Hadoop 的 所 有 关键 组 件 , 并 经 过 集成 
和 测试 封装 。 

(2) 安装 方便 : 包括 一 个 直观 的 带 用 户 界面 的 安装 和 配置 工具 。 

(3) 管理 监控 服务 : 提供 一 个 直观 的 仪表 板 显 示 界 面 支持 集群 监测 和 警示 。 

(4) 数据 集成 服务 : 包括 Talend 大 数据 平台 ,领先 的 开源 整合 工具 ,轻松 连接 Hadoop 
集群 而 无 须 编写 数据 系统 集成 工具 。 

(5) 元 数据 服务 : 包括 Apache HCatalog ,简化 了 Hadoop 应 用 程序 之 间 以 及 Hadoop 
与 其 他 数据 系统 之 间 的 数据 共享 。 

(6) 高 可 用 性 : HDP 与 成 熟 的 高 可 用 性 解决 方案 的 无 缝 集成。 

硅谷 公司 MapR Technologies 对 传统 Hadoop 提出 了 自己 的 创新 59 。 在 与 开源 
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Hadoop 兼容 的 同时 ,针对 传统 Hadoop 的 NameNode 可 能 成 为 性 能 瓶颈 、 可 能 导致 单 点 失 
效 (Single Point Of Failure, SPOF) .集中 式 NameNode/JobTracker 结构 限制 了 平台 扩展 性 
等 缺陷 ,MapR 的 商业 发 行 版 M5 做 出 了 如 下 创新 性 的 改进 。 


(1) 采用 分 布 式 NameNode 设计 ,在 MapR 设计 中 分 布 式 的 NameNode 又 被 称 作 


Container, 和 Hadoop 原来 的 NameNode 不 一 样 的 是 : Container 不 仅 管理 用 户 文 件 的 
Metadata, 也 维护 数据 块 。 每 个 Container 的 大 小 在 16 一 32GB 之 间 ,一 个 计算 节点 上 会 有 
多 个 Container, 同 一 个 Container 在 不 同 Node 间 有 备份 (replica) ,如 图 11-8 所 示 。 


MapR's Distributed NameNode 


Files/directories are sharded into blocks, which 
are placed into mini NNs (containers ) on disks 
。 Each container contains 


- $ © Directories & files 





» Data blocks 
» Replicated on servers 
Containers are 16- * No need to manage 
32 GB segments of directly 


disk, placed on $ | X Use MapR im 


nodes 


图 11-8 MapR 的 分 布 式 NameNode 设计 
(2) MapR 还 引入 了 卷 (Volume) 的 概念 (与 传统 文件 系统 的 Volume 概念 很 类 似 ), 用 


户 不 需 直 接管 理 Container. 而 是 通过 管理 Volumes 来 管理 Container, 


(3) 分 布 式 NameNode 带 来 的 一 个 问题 就 是 需要 处 理 大量 的 分 布 式 事务 (比如 用 户 需 


要 同时 操作 两 个 Container 时 )。MapR 提出 的 解决 方案 是 一 种 无 锁 事务 机 制 (Lockless 
Transaction) ,如 图 11-9 所 示 ,其 主要 步骤 如 下 。 


(D 集群 每 个 节点 都 会 保存 一 份 预 写 日 志 (Write Ahead Log, WAL), WAL 分 为 两 种 : 


OP log fll Value log, OP log 主要 保存 对 Metadata 的 修改 和 回 滚 信息 ,Value log 主要 保存 
对 datablock 的 修改 和 回 滚 信息 。 


@ Log 有 全 局 ID( 利 用 ZooKeeper 可 以 很 容易 地 实现 这 一 点 ) ,这 就 使 得 实现 分 布 式 事 


务 成 为 可 能 。 


MapR Lockless Transactions 





* BeginTrans * work + Commit. 
» No explicit commit. 
。 Uses rollback 
» confirm callback, piggy-backed 
* Undo on confirmed failure 
« Any replica can confirm 
Update throughput very high 
No locks held across messages 
Crash resistant, cycles OK 
Patent pending 


Hi 11-9  MapR 的 无 锁 事务 机 制 
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G 利用 WAL', 可 实现 事务 快速 回 滚 (2s 以 内 ) 。 

CD MapR lockless transaction 不 需要 显 式 提 交 ( 即 默认 事务 会 成 功 执行 ) 。 

© Replica 会 监测 是 否 存 在 冲突 ,如 果 有 冲突 , 则 回 滨 事 务 ; 如 果 没 有 , 则 confirm 事务 。 

MapR 的 这 种 无 锁 事务 机 制 对 系统 高 吞吐 量 贡献 很 大 ,因为 它 大 大 降低 了 事务 管理 的 
开销 。 由 于 有 全 局 性 WAL 的 存在 ,不 需要 担心 事务 过 程 中 程序 崩溃 。MapR 的 这 种 无 锁 
事务 设计 是 基于 对 Hadoop 的 这 样 一 个 认识 : 作为 大 数据 计算 分 析 平 台 , Hadoop 的 数据 操 
作 主 要 是 数据 读 取 , 写 数据 的 操作 很 少 ,分 布 式 事务 发 生 冲 突 的 概率 很 小 ,因此 放弃 事务 锁 
定 机 制 是 一 个 提高 性 能 的 优化 设计 。 

除 分 布 式 NameNode 和 无 锁 事 务 机 制 外 ,MapR 还 提供 了 DirectAccess NFS 技术 (用 
户 可 以 直接 在 远程 通过 NFS 客户 端 把 MapR HDFS 装载 到 本 地 , 像 操 作 本 地 文件 一 样 来 
进行 操作 )、Snapshot (快照 )、Mirror( 镜 像 ) 等 企业 应 用 特性 。 可 以 看 出 , MapR 包含 
Hadoop 大 部 分 的 组 件 ZooKeeper, Oozie, HBase, Hive, Pig, Sqoop, Flume, Mahout 等 ,但 在 
底层 数据 存储 系统 增加 了 自己 的 Volume, Snapshot, Mirror 和 Lockless Storage Services 
等 技术 。 


11.2 HDFS 分 布 式 文件 系统 


分 布 式 文件 系统 (Distributed File System) 是 分 布 式 计算 系统 (包括 操作 系统 ) 的 一 个 
核心 组 成 部 分 。 分 布 式 文件 系统 管理 的 物理 存储 资源 和 对 象 并 不 一 定 在 本 地 节点 上 ,而 是 
分 散 存储 在 通过 网 络 相 连 的 远程 节点 上 ,如 图 11-10 所 示 。 在 分 布 式 文件 系统 中 , 主 控 服务 
器 (也 称 元 数据 服务 器 ) 负 责 管理 命名 空间 和 文件 目录 ,但 实际 文件 数据 并 不 存储 在 本 地 节 
点 磁盘 上 ,而 是 存放 在 远程 的 数据 服务 器 (也 称 存储 服务 器 ) 节 点 上 。 


一 HA 


主 控 服 务 器 ( 主 ) ” 主 控 服 务 器 ( 备 ) 


分 布 式 文件 系统 


数据 服务 器 





图 11-10 ”分布 式 文件 系统 架构 


与 传统 的 本 地 文件 系统 (如 单 处 理 器 单 用 户 文件 系统 DOS、 多 处 理 器 单 用 户 文件 系统 
OS/2、 多 处 理 器 多 用 户 文件 系统 UNDO 比较, 分 布 式 文件 系统 具有 如 下 特点 。 

d) 透明 性 ; 文件 系统 的 透明 性 体现 在 多 个 方面 。 访 问 透明 性 是 指 文件 系统 要 使 用 户 
能 够 以 访问 本 地 文件 相同 的 方式 访问 远程 文件 ; 性 能 透明 性 是 指 文件 系统 要 使 用 户 能 在 各 
种 不 同 的 负载 环境 下 高 效 可 靠 地 操作 文件 ; 位 置 透 明 性 指 分 布 式 文件 系统 的 文件 名 必须 与 
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文件 存储 位 置 无 关 ; 扩展 的 透明 性 指 文件 系统 的 节点 数量 和 容量 应 该 能 动态 扩展 且 不 影响 
系统 运行 和 用 户 体验 。 

O) 高 可 用 性 : 分 布 式 文件 系统 必须 具有 高 容错 能 力 , 即 无 论 是 客户 端 还 是 部 分 服务 
器 出 现 故 障 ,都 不 会 影响 整个 系统 的 功能 。 为 了 做 到 这 一 点 , 单 点 失效 是 必须 避免 的 ,例如 ， 
使 用 资源 宛 余 技术 或 者 提供 失效 恢复 服务 。 

(3) 支持 并 发 访问 : 在 分 布 式 文件 系统 中 ,多 个 用 户 共享 文件 资源 ,因此 会 出 现 并 发 访 
问 的 问题 , 即 不 同 的 用 户 或 者 进程 在 相同 的 时 间 访 问 相同 的 文件 。 针 对 这 一 问题 ,分 布 式 文 
件 系统 需要 提供 避免 进程 间 出 现 冲 突 的 方法 来 允许 一 个 文件 被 多 个 进程 同时 访问 ,例如 使 
用 文件 锁 技术 。 

(4) 可 扩展 性 : 分 布 式 文件 系统 应 避免 使 用 集中 管理 机 制 或 资源 集中 模式 ,这 往往 导 
致 功能 服务 或 性 能 瓶颈 ( 即 当 负 荷 到 达 一 定 水 平时 ,即使 增加 硬件 资源 也 无 法 提升 性 能 ) 。 
应 更 多 采用 分 散 化 .共享 机 制 的 设计 ,使 得 系统 性 能 不 随 规模 的 增 大 而 大 幅度 降低 。 

(5) 安全 性 : 提供 身份 验证 ,访问 控制 ,安全 通道 (认证 或 加 密 ) 等 机 制 。 

作为 大 数据 计算 的 底层 存储 系统 , HDFS 需 满足 如 下 设计 需求 。 

(1) 硬件 发 生 错 误 是 常态 : HDFS 一 般 运行 在 普通 硬件 上 ,所 以 硬件 错误 是 常见 情况 ， 
因此 错误 检测 并 快速 自动 恢复 是 HDFS 的 核心 设计 目标 。 

(2) 流 式 数据 访问 : 运行 在 HDFS 上 的 应 用 主要 是 以 批 处 理 数据 为 主 ,而 不 是 用 户 交 
互 式 事务 ,以 流 式 数据 读 取 为 多 。 

(3) 大 规模 数据 集 : HDFS 中 典型 的 文件 大 小 要 达到 GB 或 者 是 TB 量 级 。 

(4) 简单 一 致 性 原则 : HDFS 的 应 用 程序 一 般 对 文件 的 操作 多 为 一 次 写 人 /多 次 读 出 
的 模式 ,文件 一 经 创建 . 写 人 ,关闭 后 ,文件 内 容 一 般 不 再 发 生 改变 ,这 种 简单 一 致 性 原则 使 
得 高 吞吐 量 的 数据 访问 成 为 可 能 。 

(5) 数据 就 近 原 则 : HDFS 提供 接口 ,以 便 应 用 程序 将 自身 的 执行 代码 移动 到 数据 节 
点 上 来 执行 。 采 用 这 种 方式 的 原因 主要 是 : 移动 程序 比 移动 数据 更 加 划算 。 相 比 HDFS 中 
的 大 数据 /大 文件 ,移动 代码 相 比 移动 数据 更 加 划算 ,采用 这 种 方式 可 以 提高 带宽 的 利用 率 ， 
增加 系统 吞吐 量 ,减少 网 络 的 堵塞 程度 。 


11.2.1 HDFS 体系 结构 


部 署 在 Hadoop 集群 上 的 HDFS 文件 系统 采用 了 如 图 11-11 所 示 的 主 从 结构 (Master/ 
Slave) , 即 集群 节点 分 为 两 类 : 主 节 点 (MasterNode 或 NameNode) 和 从 节点 (SlaveNode 或 
DataNode) 。 集 群 中 至 少 有 一 个 主 节点 ,运行 NameNode,JobTracker, ZooKeeper, Hmaster 
等 负责 集群 管理 .资源 配置 .作业 调度 的 程序 。 集 群 的 多 个 从 节点 (DataNode) 则 承担 数据 
存储 及 计算 任务 。 生 产 系统 一 般 还 会 配备 一 个 备份 主 节点 (Backup NameNode) 同 步 运行 ， 
大 型 集群 还 会 部 署 一 个 Secondary NameNode, 并 把 JobTracker,ZooKeeper 部 署 在 单独 的 
机 器 上 ,以 保证 系统 的 高 可 用 性 和 扩展 性 。 多 台 从 节点 (DataNode) 机 器 安装 在 不 同 的 机 架 
(Rack) A ,通过 高 速 局 域 网 与 主 节点 相连 。HDFS 体系 中 的 主 、 从 节点 ,运行 程序 及 各 自 执 
行 的 任务 见 表 11-3。 

HDFS 还 提供 了 一 个 客户 端 (Client) 用 于 支持 客户 操作 HDFS, 它 实际 是 一 个 包含 
HDFS 文件 系统 接口 的 库 , 隐 藏 了 HDFS 操作 实现 中 的 大 部 分 复杂 性 细节 。 客 户 端 支持 对 
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文件 的 打开 、 读 取 、 写 入 等 常见 操作 ,并 且 提 供 了 类 似 Shell 的 命令 行 方式 来 访问 存储 在 
HDFS 中 的 数据 。 另 外 ,HDFS 也 提供 了 Java API 作为 应 用 程序 访问 文件 系统 的 客户 端 编 












































































































































程 接口 。 
客户 端 文件 名 或 数据 块 号 名 称 节点 
(Client) (NameNode) 
i 数据 块 号 、 数 据 块 位 置 
写 数据 读数 据 
] | | 
数据 节点 数据 节点 || orm 数据 节点 数据 节点 
(DataNode) (DataNode) (DataNode) (DataNode) 
本 地 Linux 文 件 系统 本 地 Linux 文 件 系统 本 地 Linux 文 件 系统 本 地 Linux 文 件 系统 
f 备份 
| | à 
UE DUE] 
图 11-11 HDFS 体系 结构 


表 11-3 HDFS 的 主 , 从 节点 职责 





NameNode 


NameNode JobTracker 


管理 HDFS 文件 系统 的 命名 空间 ,记录 文 
件 在 每 个 DataNode 节点 上 的 位 置 和 副本 
信息 ,协调 客户 端 (Client) 对 文件 的 访问 / 
操作 ,以 及 记录 命名 空间 内 的 改动 或 命名 
空间 属性 的 改变 





主 节 点 Secondary NameNode 


SecondaryNameNode 


保存 NameNode 中 metadata 的 备份 ,并 减 
少 NameNode 重启 的 时 间 





Backup NameNode 


NameNode 


提供 主 节点 (NameNode) 的 热 备份 ,定期 合 
并 fsimage 和 fsedits 推送 给 NameNode; 
当 Active NameNode 出 现 故 障 时 ,快速 切 
换 为 新 的 Active NameNode 





从 节点 DataNode 





DataNode TaskTracker 








提供 文件 的 物理 存储 机 制 , 负 责 数据 的 存 
储 和 读 取 , 向 名 称 节点 定期 发 送 自己 所 存 
储 的 块 的 列表 





HDFS 采用 Master/Slave 架构 ,集群 中 只 设置 一 个 主 节点 (NameNode) ,这 一 架构 虽然 
大 大 简化 了 系统 设计 ,使 得 元 数据 管理 和 资源 调配 更 容易 ,但 也 带 来 如 下 局 限 性 。 

(1) 命名 空间 的 限制 : 由 于 管理 命名 空间 的 名 称 节点 进程 是 保存 在 内 存 中 ,因此 名 称 
节点 能 够 容纳 的 对 象 (文件 、 块 ) 的 个 数 会 受到 内 存 空间 大 小 的 限制 。 

(2) 性 能 的 瓶颈 : 整个 分 布 式 文件 系统 的 吞吐 量 , 受 限于 单个 名 称 节点 的 吞吐 量 。 
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(3) 单 点 失效 (SPOF) 问 题 : 一 旦 这 个 唯一 的 名 称 节点 发 生 故 障 , 会 导致 整个 集群 变 得 
不 可 用 。 

前 面 提 到 的 商业 公司 MapR Technologies 正 是 针对 HDFS 的 上 述 缺 陷 提出 了 自己 的 
解决 方案 ,并 集成 在 MapR 的 Hadoop 商业 发 行 版 中 c9 。 


11.2.2 HDFS 存储 结构 


HDFS 是 以 块 (Block 为 基本 单位 存储 文件 的 ,每 个 块 大 小 (Block Size) Jy 64MB, 如 果 
一 个 文件 不 到 64MB, 也 存 成 一 个 独立 的 块 。HDFS 文件 存储 机 制 如 下 。 

(1) 每 个 文件 被 划分 成 64MB 大 小 的 多 个 Blocks, 属 于 同一 个 文件 的 Blocks 分 散 存储 
在 不 同 DataNode 上 。 

(2) 出 于 系统 容错 需要 , 每 一 个 Block 有 多 个 副本 (replica), 存储 在 不 同 的 
DataNode 上 。 

(3) 每 个 DataNode 上 的 数据 存储 在 本 地 的 Linux 文件 系统 中 。 

上 述 的 HDFS 文件 存储 机 制 如 图 11-12 所 示 ,例如 ,一 个 大 小 为 50GB 的 数据 文件 在 存 
入 HDFS 时 被 拆 分 为 800 个 Blocks( 每 个 Block 大 小 为 64MB) ,编号 为 Blockl，Block2， 
Block3,…, Block800。 假 设 每 个 Block 在 HDFS 中 存 三 份 (有 两 份 宛 余 副本 ), 则 系统 中 有 
=f} Blockl, 三 份 Block2, 三 份 Block3 … 但 分 散 存储 在 不 同 的 DataNode 上 。 比 如 : 

Block1 的 三 份 存储 在 DNI.DN2.DN3 E; 

Block2 的 三 份 存储 在 DN2,DN3.DN4 E; 

Block3 的 三 份 存储 在 DN3,DN4,DN5 E; 


File3 Block1:Nodel,Node2,Node3 
EI M B Block2:Node2,Node3,Node4 

Block! Block? Block3 Block3:Node4,Node5,Node6 
Block4:Node5,Node6,Node7 














E elim] ger! 


Block! Block2 | Block2 — Block3 


[E = = - = 
Block3 Block4 Block3 Block Block4 


E 11-12 HDFS 的 块 存储 机 制 


HDFS 的 这 种 基于 统一 尺度 的 块 、 多 副本 多 节点 的 存储 机 制 带 来 了 如 下 好 处 。 
(1) 有 利于 大 规模 文件 存储 。 一 个 大 规模 文件 可 以 被 分 拆 成 若干 个 文件 块 ,不 同 的 文 
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件 块 可 以 被 分 发 到 不 同 的 节点 上 ,因此 ,一 个 文件 的 大 小 不 会 受到 单个 节点 存储 容量 的 限 
制 , 文 件 规 模 可 以 远 远大 于 网 络 中 任意 节点 的 存储 容量 。 

D 适合 数据 备份 : 每 个 文件 块 都 可 以 宛 余 存储 到 多 个 节点 上 ,大 大 提高 了 系统 的 容 
错 性 和 可 用 性 。 

(3) 系统 设计 简化 : 首先 简化 了 存储 管理 ,因为 文件 块 大 小 是 固定 的 ,这 样 就 可 以 很 容 
易 计算 出 一 个 节点 可 以 存储 多 少 文件 块 ; 其 次 方便 了 元 数据 的 管理 ,元 数据 不 需要 和 文件 
块 一 起 存储 ,可 以 由 其 他 系统 负责 管理 元 数据 。 

1. 命名 空间 管理 

要 实现 上 述 基于 块 的 存储 机 制 ,HDFS 需 解 决 三 个 问题 : 文件 -Block-> 节 点 的 映射 关 
a 命名 空间 管理 ; 文件 读 写 操作 流程 。HDFS 的 命名 空间 包括 目录 文件 和 块 ,文件 一 
Block 一 节点 的 映射 关系 作为 元 数据 存储 在 NameNode 上 。 整 个 HDFS 集群 只 有 一 个 命名 
空间 ,由 唯一 的 一 个 名 称 节点 负责 对 命名 空间 进行 管理 。HDFS 使 用 的 是 传统 的 分 级 文件 
体系 ,因此 用 户 可 以 像 使 用 普通 文件 系统 一 样 对 文件 进行 创建 .删除 .在 目录 间 转 移 文件 、 重 
命名 文件 等 操作 。 运 行 在 主 节点 上 的 NameNode 进程 使 用 两 个 特定 的 数据 结构 FsImage 
和 EditLog 对 命名 空间 进行 管理 。 

FsImage 用 于 存储 和 管理 文件 系统 目录 树 以 及 目录 树 中 所 有 文件 和 文件 夹 的 元 数据 
(图 11-13), FsImage 文件 包含 所 有 目录 和 文件 inode 的 序列 化 形式 ,每 个 inode 是 一 个 文 
件 或 目录 的 元 数据 的 内 部 表示 ,文件 元 数据 包含 诸如 文件 复制 等 级 ,修改 和 访问 时 间 、 访 问 
权限 、 块 大 小 以 及 组 成 文件 的 块 等 信息 ,目录 元 数据 则 包含 修改 时 间 、 权 限 和 配额 元 数据 等 。 











根 目录 
名 称 节点 (NameNode) 目录 目录 目录 













EditLog 























块 | E 块 








记录 了 所 有 针对 文件 的 创建 、 删 除 、 
重 命名 等 操作 


Æ 11-13 ”HDFS 命名 空间 管理 


FsImage 文件 并 没有 把 文件 一 Block 习 节点 的 映射 表 静 态 存 储 在 某 个 节点 ,而 是 由 名 称 
节点 进程 把 这 个 映射 关系 表 装 载 并 保留 在 内 存 中 。 当 一 个 数据 节点 加 入 HDFS 集群 时 , 数 
据 节 点 会 把 自己 所 包含 的 块 列表 通知 给 名 称 节点 ,由 后 者 对 内 存 的 映射 表 进行 更 新 ,以 确保 
名 称 节点 掌握 的 块 映射 表 是 最 新 的 。 

2. 第 二 名 称 节点 

NameNode 主要 是 用 来 保存 HDFS 的 元 数据 信息 ,比如 命名 空间 信息 、 块 映射 信息 等 。 
当 NameNode 运行 时 ,上 述 信息 是 保存 在 内 存 中 的 ,但 这 些 信息 也 可 以 持久 化 保存 到 磁盘 








第 11 章 Hadoop 生 态 系 统 des 


E. NameNode 用 到 如 图 11-14 所 示 的 两 个 文件 FsImage 和 EditLog 来 完成 元 数据 的 保存 
和 同步 : FsImage 是 NameNode 启动 时 对 整个 文件 系统 的 快照 : EditLog 是 NameNode 启 
动 后 对 文件 系统 改动 操作 的 记录 (包括 文件 创建 . 重 命名 .删除 等 操作 )。 名 称 节 点 程序 
(NameNode) 启 动 时 , 它 将 FsImage 文 件 中 的 内 容 加 载 到 内 存 中 ,之 后 再 将 EditLog 文件 内 
容 与 FsImage 合并 ,使 得 内 存 中 的 元 数据 和 实际 的 同步 。 






NameNode 





在 启动 的 时 候 读 取 Fslmage 并 跟 EditLog 合 并 


H 


把 改动 写 到 文件 系统 中 





\ 
EditLog 


图 11-14 NameNode 上 的 元 数据 同步 


名 称 节点 程序 (NameNode) 启 动 运 行 之 后 ,HDFS 的 更 新 操作 信息 会 不 断 写 到 EditLog 
文件 中 。HDFS 集群 的 NameNode 是 很 少 重启 的 ,这 就 意味 着 运行 一 段 时 间 后 ,EditLog 文 
件 会 变 得 很 大 。 这 对 名 称 节 点 运行 没有 什么 明显 影响 ,但 当 名 称 节点 需要 重启 的 时 候 , 名 称 
节点 需要 先 将 FsImage 的 内 容 加 载 到 内 存 中 ,然后 再 一 条 一 条 地 执行 EditLog 中 的 记录 。 
当 EditLog 文件 非常 大 时 ,这 会 导致 名 称 节 点 启动 操作 非常 缓慢 ,而 在 这 段 时 间 内 HDFS 
系统 处 于 安全 模式 ,一 直 无 法 对 外 提供 写 操作 ,影响 了 用 户 的 使 用 。HDFS 解决 这 一 问题 的 
办 法 就 是 提供 一 个 独立 部 署 的 第 二 名 称 节点 (Secondary NameNode) 。 

Secondary NameNode 是 HDFS 用 来 保存 名 称 节点 (DataNode) 对 HDFS 元 数据 信息 
的 备份 ,并 减少 名 称 节点 重启 的 时 间 的 一 种 机 制 。Secondary NameNode 一 般 独 立 部 署 在 
一 台 机 器 上 ,执行 如 下 操作 步骤 (图 11-15). 

(1) Roll edits: SecondaryNameNode 进程 会 定期 和 NameNode 通信 ,请求 其 停止 使 用 
EditLog 文件 ,暂时 将 新 的 写 操作 写 到 一 个 新 的 文件 edit. new 上 来 ,这 个 操作 是 瞬间 完成 
的 ,上 层 写 日 志 的 函数 完全 感觉 不 到 差别 。 

(2) Retrieve FsImage and edits from NameNode: SecondaryNameNode 进程 通过 
HTTP GET 方式 从 NameNode 取得 FsImage 和 EditLog 文件 ,并 下 载 到 本 地 相应 目录 下 。 

(3) Merge: SecondaryNameNode 进程 将 下 载 的 FsImage 载 人 到 内 存 , 然 后 一 条 一 条 
地 执行 EditLog 文件 中 的 各 项 更 新 操作 ,使 得 内 存 中 的 FsImage 保持 最 新 ,这 个 过 程 就 是 
EditLog 和 FsImage 文件 的 合并 。 

(4) Transfer checkpoint to NameNode: SecondaryNameNode 执行 完 操 作 (3) 之 后 ,会 
通过 post 方式 将 新 的 FsImage 文件 发 送 到 NameNode 节点 上 。 

(5) Roll again; NameNode 将 从 SecondaryNameNode 接收 到 的 新 的 FsImage 替换 为 
旧 的 FsImage 文件 ,同时 将 edit. new 替换 为 原来 的 EditLog 文件 ,这 个 过 程 使 得 EditLog 
文件 重新 变 小 。 
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Primary NameNode Secondary NameNode 











fsimage 


2. Retrieve fsimage and edits from 
primary 


edits.new 


fsimage.ckpt 


N 4. Transfer checkpoint to primary 


fsimage.ckp!i 


fsimage.ckpt 
$ and EEEN 





图 11-15 Secondary NameNode 的 工作 流程 


3. HDFS 的 文件 读 写 机 制 

目前 HDFS 支持 两 种 访问 方式 : HDFS Shell 命令 (和 Linux Shell 命令 很 像 ), HDFS 
Java APICorg. apache. hadoop. fs). X} F C 语言 ,HDFS 提供 了 libhdfs 接口 。 对 于 其 他 
C++ „Python PHP,C # 等 编程 语言 ,HDFS 通过 Thrift 编程 接口 提供 对 HDFS 的 访问 。 下 
面 以 Java 客户 端 程序 访问 HDFS 为 例 介绍 HDFS 文件 的 读 和 写 两 个 流程 。 

如 图 11-16 所 示 ,运行 在 Java 客户 端的 程序 读 取 HDFS 文件 的 流程 包括 如 下 步骤。 

CD 打开 文件 : Java 客户 端 通过 FileSystem 打开 文件 ,执行 代码 如 下 。 


"" 


namenode 











client JVM 


client node 


~a S:read 
ES 


datanode datanode 


datanode 





图 11-16 HDFS 的 文件 读 流程 
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import org. apache. hadoop. fs. FileSystem 

Configuration conf = new Configuration(); 

FileSystem fs = FileSystem.get(conf); 

FSDataInputStream in = fs.open(new Path(uri)); 

(2) 获取 块 信息 : 通过 ClientProtocal. getBlockLocations() 远 程 调用 名 称 节点 ,获得 文 
件 开始 部 分 数据 块 的 位 置 。 名 称 节点 还 返回 保存 该 数据 块 的 所 有 数据 节点 的 地 址 ,并 根据 
距离 客户 端 远近 进行 排序 。 

(3) 读 取 请 求 : 客户 端 获得 输入 流 FSDataInputStream 以 后 调用 read() 函 数 开 始 读 取 
数据 ; 输入 流 根据 前 面 的 排序 结果 ,选择 距离 客户 端 最 近 的 数据 节点 建立 连接 并 读 取 
数据 。 

FileSystem fs = FileSystem.get(conf); 

FSDataInputStream in = fs.open(new Path(uri)); 

(4) 读 取 数据 : 从 数据 节点 把 数据 块 读 到 客户 端 , 当 该 数据 块 读 取 完 毕 时 
FSDataInputStream 关闭 和 该 数据 节点 的 连接 。 

O) 读 取 下 一 个 数据 节点 上 的 数据 块 ,直到 该 文件 的 所 有 数据 块 读 取 完 毕 。 

(6) 关闭 文件 : 客户 端 通过 FileSystem 关闭 文件 ,整个 读 取 文件 流程 完成 。 

如 图 11-17 所 示 ,客户 端 程序 改写 HDFS 文件 的 流程 如 下 。 

CD 创建 文件 : 客户 端 通过 FileSystem 创建 文件 ,执行 代码 如 下 。 

import org. apache. hadoop. fs. FileSystem 

Configuration conf = new Configuration(); 

FileSystem fs = FileSystem. get(conf); 

FSDataOutputStream out = fs.create(new Path(uri)); 

(2) 建立 文件 元 数据 : RPC 远程 调用 名 称 节点 方法 在 文件 系统 的 命名 空间 中 新 建 一 个 
文件 ,名 称 节点 会 执行 相应 的 检查 (文件 是 否 存 在 ,客户 端 权限 等 )。 

(3) 写 人 请 求 : 向 系统 发 出 写 人 数据 请 求 。 

(4) 写 人 数据 包 : 数据 被 分 成 一 个 个 分 包 (Packet) 放 入 DFSOutputStream 的 内 部 队 


m 2:create 
reate Distributed & ld NameNode 
[EET FileSystem » 
a FSData namenode 
; OutputStream 


4:write packet 


Pipeline of DataNode [| DataNode DataNode 
datanodes S 5 


datanode 









client JVM 






client node 








A 11-17 HDFS 的 文件 写 流程 
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列 ,DFSOutputStream 向 名 称 节点 申请 存放 数据 块 的 若干 数据 节点 ,然后 按照 申请 到 的 数 
据 节点 把 文件 分 包 分 别传 送 到 节点 上 存储 。 传 送 方式 为 : 申请 到 的 数据 节点 形成 一 个 数据 
流 管道 ,队列 中 的 分 包 最 后 被 打包 成 数据 包 第 一 个 数据 节点 ,第 一 个 数据 节点 再 将 数据 包 发 
送 到 第 二 个 节点 …… 以 此 类 推 ,形成 “流水 线 复制 ”, 直 到 数据 包 存 储 完成 。 

(5) 接收 确认 包 : 为 了 保证 节点 数据 准确 ,完成 接收 的 数据 节点 要 向 发 送 者 发 送 “ 确 认 
包 ”(Ack Packet ,确认 包 沿 着 数据 流 管道 逆流 而 上 ,经 过 各 个 节点 最 终 到 达 客 户 端 。 客 户 
端 收 到 确认 包 后 ,将 对 应 的 分 包 从 内 部 队列 移 除 。 

(6) 关闭 文件 : 客户 端 通过 FileSystem 关闭 文件 。 

(7) 结束 过 程 : DFSOutputStream 调用 ClientProtocal. complete() 方 法 。 

通知 名 称 节点 关闭 文件 ,整个 写 文 件 流程 结束 。 


11.2.3 数据 容错 与 恢复 


HDFS 的 主要 设计 目标 之 一 就 是 在 硬件 故障 情况 下 保障 数据 存储 的 可 用 性 和 可 靠 
TE, HDFS 是 通过 数据 宛 余 备份 .副本 存放 策略 .容错 与 恢复 机 制 来 提供 这 种 高 可 
用 性 。 

为 保证 系统 的 容错 性 和 可 用 性 ,HDFS 采用 了 多 副本 方式 进行 元 余 存储 ,通常 一 个 数据 
块 的 多 个 副本 (HDFS 默认 数 为 3) 会 被 分 布 到 不 同 的 数据 节点 上 存储 ,如 图 11-18 所 示 。 比 
如 ,数据 块 1 被 分 别 存放 到 数据 节点 A 和 C 上 ,数据 块 2 被 存放 在 数据 节点 A 和 B 上 ,数据 
块 3 被 存放 在 数据 节点 B 和 C 上 …… 这 种 多 副本 方式 具有 以 下 优点 。 

CD 加 快 数据 传输 速度 : 客户 端 可 以 就 近 读 取 最 近 的 副本 ,而 不 需 远 程 传输 。 

(2) 容易 检查 数据 错误 。 

(3) 保证 数据 可 用 性 : 即使 某 些 节点 宕 机 ,还 可 以 从 其 他 节点 获取 数据 副本 并 复制 到 
其 他 节点 。 


名 称 节点 
(只 保存 元 数据 ) 












元 数据 
/usr/aaron/foo:1,2.4 
/usr/arron/bar:3.5 












数据 节点 A 
(保存 数据 块 ) 


数据 节点 B 
(保存 数据 块 ) 
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数据 节点 C 
(保存 数据 块 ) 
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11-18 HDFS 的 宛 余 备份 


HDFS 采 用 了 机 架 感 知 (Rack-aware) 的 副本 存放 策略 来 改进 数据 的 可 靠 性 、 可 用 性 和 
网 络 宽带 的 利用 率 。 当 复制 因子 为 3 时 (HDFS 默认 值 ), HDFS 的 副本 存放 策略 如 下 (如 
图 11-19 所 示 )。 

(1) 第 一 个 副本 Block] 放 到 与 客户 端 同一 机 架 的 一 个 节点 (如 果 提 交 节 点 在 集群 内 )， 
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图 11-19 HDFS 副本 存放 策略 


如 果 是 从 集群 外 提交 , 则 选取 一 个 负载 较 低 的 节点 。 

(2) 第 二 个 副本 Block2 放 到 Blockl 所 在 机 架 之 外 的 节点 ( 即 Blockl,Block2 不 在 同一 
机 架 内 )。 

G) 第 三 个 副本 Block3 放 在 与 Block2 同一 机 架 的 另 一 节点 (同一 机 架 但 不 同 节点 )。 

(4) 更 多 副本 则 随机 存放 。 

HDFS 提供 了 一 个 API 可 以 确定 某 一 数据 节点 所 属 的 机 架 ID, 客 户 端 也 可 以 调用 此 
API 获取 自己 所 属 机 架 的 ID。 当 客户 端 读 取 数 据 时 , 它 首 先 从 名 称 节点 获得 不 同 副本 的 存 
放 位 置 列表 ,包含 副本 所 在 的 数据 节点 信息 ,进而 可 以 调用 API 确定 这 些 数据 节点 所 属 的 
机 架 ID。 当 发 现 某 个 数据 节点 对 应 的 机 架 ID 和 客户 端 自己 的 机 架 ID 相同 时 ,就 优先 读 取 
该 数据 节点 存放 的 副本 ; 如 果 没 有 发 现 ,就 随机 选择 一 个 副本 读 取 数 据 。 这 种 分 散 存 放 策 
略 既 可 以 防止 某 一 机 架 失 效 时 数据 丢失 ,又 可 以 利用 机 架 内 的 高 带宽 特性 提高 数据 读 取 
速度 。 

HDFS 的 容错 机 制 还 包括 错误 检测 和 恢复 机 制 。 错 误 检测 包括 NameNode 检测 、 
DataNode 检测 和 数据 错误 检测 。 

HDFS 集群 的 NameNode 保存 了 所 有 的 文件 系统 元 数据 信息 ,存放 在 NameNode 进程 
维护 的 两 大 数据 结构 FsImage 和 EditLog 中 ,如 果 这 两 个 文件 发 生 损坏 ,那么 整个 HDFS 
系统 将 失效 。 为 此 HDFS 设置 了 备份 机 制 ,把 这 两 个 核心 元 数据 文件 同步 复制 到 第 二 名 称 
节点 Secondary NameNode 上 。 当 名 称 节点 出 错时 ,可 以 使 用 Secondary NameNode 上 的 
FsImage 和 EditLog 数据 对 系统 进行 恢复 。 

DataNode 的 错误 HDFS 则 采用 心跳 检测 方法 来 监测 。 每 个 DataNode 会 周期 性 地 向 
集群 NameNode 发 送 心 跳 包 和 块 报告 .NameNode 根据 这 些 心 跳 包 信息 验证 映射 关系 和 其 
他 元 数据 。 当 NameNode 在 规定 时 间 内 未 收 到 DataNode 节点 的 心跳 报告 ,NameNode 会 
将 该 DataNode 标记 为 失效 ,并 不 再 给 该 DataNode 节点 发 送 任何 数据 操作 命令 ,该 节点 存 
放 的 所 有 数据 块 也 被 标注 为 不 可 读 。DataNode 的 失效 也 可 能 导致 数据 块 副本 的 数目 低 于 
设 定 值 ,NameNode 定期 检查 发 现 了 这 种 情况 ,就 会 启动 数据 宛 余 复 制 ,为 该 数据 块 生成 新 
的 副本 ,放置 在 另外 节点 上 。 另 外 ,数据 副本 损坏 `DataNode 上 的 磁盘 错误 或 者 复制 因子 增 
大 也 可 能 触发 复制 副本 进程 。 

HDFS 系统 运行 有 一 种 安全 模式 ,在 这 个 模式 中 不 允许 数据 块 的 写 操作 。 当 
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NameNode 检测 到 DataNode 上 的 数据 块 副本 数 没有 达到 设 定 最 小 副本 数 ,系统 就 会 进入 
安全 模式 ,并 开始 副本 的 复制 ,只 有 当 副 本 数 大 于 最 小 副本 数 的 时 候 , 系 统 才 会 自动 脱离 安 
全 模式 。 

对 数据 完整 性 的 检测 ,HDFS 实现 了 对 文件 内 容 的 校 验 和 检测 (CRC 循环 校 验 码 )。 客 
户 端 创建 文件 时 会 将 数据 块 的 校 验 信息 写 人 到 一 个 隐藏 文件 中 。 当 客户 端 读 取 文 件 时 , 它 
会 先 读 取 该 校 验 信息 文件 ,然后 用 该 信息 文件 对 每 个 读 取 的 数据 块 进行 校 验 ,如 果 校 验 出 
错 ,客户 端 就 会 请 求 到 另外 一 个 数据 节点 读 取 该 文件 块 , 并 且 向 名 称 节点 报告 这 个 文件 块 有 
错误 ,名 称 节 点 会 定期 检查 并 且 重 新 复制 这 个 块 。 


11.2.4  Hadoop/HDFS 安装 


1. 集群 环境 

1) 环境 配置 

CentOS 版 本 : centos-release-7. 3. 1611. e17. centos. X86. 64 

Java 版 本 : Java 1. 8. 0 111-bl4 

Hadoop 版 本 : Hadoop-2. 7. 3 

2) 硬件 配置 

master 机 器 : 双核 CPU/8GB 内 存 /500GB 硬盘 。 

slavel 机 器 : 单 核 CPU/4GB 内 存 /250GB 硬盘 。 

slave2 机 器 : 单 核 CPU/AGB 内 存 /250GB 硬盘 。 

3) 网 络 配置 

master 机 器 : 192. 168. 31. 240 master 

slavel 机 器 : 192. 168. 31. 149 slavel 

slave2 机 器 : 192. 168. 31. 183 slave2 

4) 配置 说 明 

(1) 默认 安装 过 程 在 目标 master 机 器 上 进行 ,根据 提示 在 其 他 机 器 上 执行 操作 ; 
(2) 若 无 提 示 , 所 有 Hadoop 配置 操作 过 程 均 在 Hadoop 用 户 下 执行 ,系统 配置 操作 在 


root 用 户 下 执行 ; 
(3) 若 操作 命令 权限 不 够 ,在 命令 前 加 sudo. 
2. 网 络 配置 


1) 建立 Hadoop 用 户 
(D 在 root 下 建立 Hadoop HP 


命令 : su root # 切换 用 户 
命令 : useradd hadoop # 添 加 Hadoop 用 户 
命令 : passwd Hadoop # f PX Hadoop 用 户 的 登录 密码 


(2) 在 root 下 为 Hadoop 用 户 配置 root 权限 ,在 配置 文件 中 添加 一 行 ,如 下 所 示 。 
命令 : visudo # 打 开 指定 配置 文件 
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D user — MACHINE-COMMANDS 
Li 
## The COMMANDS section may have other options added to it. 
Ld 
## Allow root to run any commands anywhere 

ALL 


root ALL-(ALL) 
hadoop ALL=(ALL) ALL 


2) 测试 网 络 连接 
查看 局 域 网 中 各 集群 目标 机 器 的 IP 地 址 ,并 使 用 ping 命令 测试 机 器 间 是 否 正 常 连通 。 


命令 : ip addr # 查 看 IP 地 址 

命令 : ping 192.168.31.149 * Ping slavel 和 slave2 的 IP 
3) 修改 机 器 名 称 和 网 络 配置 

(1) 打开 /etc/hostname 文件 ,修改 机 器 名 为 master, 如 下 。 


命令 : vi /etc/hostnane # 打 开 文 件 
(2) 重启 后 生效 。 

命令 : reboot # 重 启 
nasteri 


(3) 打开 /etc/sysconfig/network 添加 内 容 , 如 下 。 


R yes 
IOSTNAME-master 


IETWORKING IPV6-yes 
[|PV6 AUTOCONF-no 





(4) 打开 /etc/hosts, 写 和 人 网络 配 置 中 的 三 台 机 器 的 主机 名 和 TP 的 映射 ,如 下 。 
192.168.31.240 master 


192.168.31.183 slave2 
192.168.31.149 slavel 


4) 在 其 他 机 器 上 执行 如 上 相同 操作 

在 其 他 机 器 上 ,相应 的 机 器 名 为 slavel .slave2 。 

5) 测试 

若 多 台 机 器 可 以 互相 用 IP 和 主机 名 ping 通 , 则 配置 成 功 。 


命令 : ping slavel 


3. SSH 配置 无 密码 连接 


1) 关闭 防火 墙 
不 关闭 防火 墙 可 能 会 导致 Hadoop 无 法 正常 启动 。 
命令 : systenctl stop firewalld. service # 停 止 firewall 


命令 : systemctl disable firewalld. service #4 JH firewall 启动 
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命令 : systemctl status firewalld. service 井 查看 firewall 状态 ,应 为 active: inactive 

2) 安装 SSH 

若 机 器 未 安装 SSH, 用 如 下 命令 安装 。 

命令 : yum install ssh 

3) 生成 密码 对 

CD 执行 如 下 命令 。 中 途 若 有 询问 直接 回 车 (-P 选项 后 为 两 个 单 引 号 ,表示 原 密码 
为 空 )。 

命令 : ssh-keygen -trsa-P" 

(2) 上 述 命 令 执 行 后 会 自动 在 /home/hadoop/. ssh/ 下 生成 两 个 密码 对 。 

命令 : 11 ~/.ssh # 查 看 . ssh 文件 夹 

(3) 将 公 钥 追加 到 授权 的 key 中 。 

命令 : cat —/.ssh/id rsa. pub >> ~/. ssh/authorized keys 

在 其 他 机 器 上 执行 如 上 相同 操作 。 

4) 修改 SSH 配置 

(1) 修改 /etc/ssh/sshd_config 文件 中 的 内 容 配 置 如 下 。 


命令 : vi /etc/ssh/sshd_config 
命令 : /RSA # 在 文件 中 查找 关键 词 RSA 


去 掉 RSAAuthentication 和 PubkeyAuthentication 前 的 # 注 释 符 号 。 


# Host * 

# —ForwardAgent no 

# — ForwardXll no 

# — RhostsRSAAuthentication no 


RSAAuthentication yes 
Pi tion yes 


Withorized keys 





# 





# PasswordAuthentication yes 
# HostbasedAuthentication no 


(2) 对 其 他 机 器 执行 如 上 相同 操作 。 
(3) 添加 其 他 机 器 的 公 钥 ,使 得 每 个 机 器 的 authorized_keys 中 包含 集群 所 有 机 器 的 


45. 
命令 : scp slavel:— /.ssh/id rsa.pub /home/hadoop # 将 slavel 的 公 钥 复制 到 本 地 
命令 : cat /home/hadoop/id rsa. pub >> —/.ssh/authorized keys i14 slavel 的 公 钥 追加 到 key 中 
命令 : scp slave2: 一 /. ssh/id_rsa. pub /home/hadoop * H slave2 的 公 钥 复制 到 本 地 
命令 : cat /home/hadoop/id rsa. pub >> —/.ssh/authorized keys i$ slave2 的 公 钥 追加 到 key 中 
5) 修改 权限 


CD 修改 . ssh 文件 夹 权 限 为 700。 


命令 : chmod 700 一 /.ssh 
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(2) 修改 authorized keys 文件 的 权限 为 600。 


命令 : chmod 600 —/.ssh/authorized keys 


对 其 他 机 器 执行 如 上 相同 操作 。 

6) 测试 

重启 SSH 并 测试 , 若 master、slavel、slave2 之 间 登 录 不 需 输入 密码 即 配置 成 功 ,如 下 。 
命令 : service sshd restart # 重启 

命令 : ssh slavel # 连 接 slavel 


[hadoop@master -1& ssh slavel 

Last login: Sun Dec EH 2016 
tpe IDOpUSLavel =T exi 
logout 

Connection to slavel closed. 
[hadoop@master -]$ ssh slave2 

Last login: Sat Dec 24 17:17:54 2016 
[hadoopaslave2 -]$ exit 

logout 

Connection to slave2 closed. 
[hadoop@master -]$ B 


4. 安装 JDK 

1) 删除 自 带 JDK 

删除 系统 自 带 的 JDK ,或 是 直接 忽略 系统 自 带 的 Java, 另 行 下 载 配置 ,此 外 不 要 用 yum 
命令 安装 openjdk ,这样 的 Java 可 能 会 没有 jps 指令 ,影响 后 面 Hadoop 的 安装 和 使 用 。 


命令 : rpm - galgrep java # 查 看 已 有 的 JDK 
命令 : yum -Y remove 文件 名 # 印 载 上 条 命令 列 出 的 文件 
2) 下 载 并 解压 


从 官网 下 载 Javal. 8, 进 入 其 所 在 该 文件 夹 , 解 压 到 /usr/java 文件 夹 ,该 文件 夹 是 用 户 
创建 的 。 


命令 : mkdir /usr/java 划 创 建新 文件 来 
命令 : tar - zxvf 压缩 包 名 -C /usr/java # 解 压 
3) 配置 环境 变量 


(1) 打开 /etc/profile 配置 文件 ,在 最 后 添加 内 容 , 如 下 。 


#new java environment 

export JAVA HOME-/usr/java/jdk1.8.0 111 

export CLASSPATH-. :$JAVA HOME/lib/dt.jar:$JAVA HOME/lib/tools.jar 
export PATH-$PATH:$JAVA HOME/bin 


(2) 刷新 配置 。 
命令 : source /etc/profile 
(3) 测试 Java, 效 果 如 下 , 则 配置 成 功 。 


命令 : java -version 
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[hadoop@master -]$ java -version 

java version "1.8.0 111" 

Java(TM) SE Runtime Environment (build 1.8.0 111-b14) 

Java HotSpot(TM) 64-Bit Server VM (build 25.111-b14, mixed mode) 
[hadoopgmaster -]$ 


4) 复制 到 其 他 机 器 
CD 将 安装 好 的 Java 文件 夹 复制 到 其 他 机 器 。 


命令 : scp —r /usr/java slavel:/usr 
命令 : scp -r /usr/java slave2:/usr 


(2) 将 配置 好 的 profile 文件 复制 到 其 他 机 器 。 


命令 : scp /etc/profile slavel:/etc 

命令 : scp /etc/profile slave2:/etc 

(3) 用 SSH 登录 其 他 机 器 ,刷新 其 他 机 器 上 的 profile 配置 文件 。 

在 其 他 机 器 上 测试 Java。 

5. 安装 Hadoop 

1) 下 载 

从 官网 下 载 Hadoop 2.7.3, 务 必 在 官网 查询 各 版 本 Hadoop 对 Java 的 要 求 , 下 载 合 适 
的 Hadoop。 

2) 解压 

进入 压缩 包 所 在 的 文件 夹 解压 。 


命令 : tar - zxvf 压缩 包 名 -C /usr 
3) 配置 环境 变量 
CD. 打开 /etc/profile 配置 文件 ,在 最 后 添加 内 容 ,如 下 。 


#hadoop environment 

export HADOOP HOME-/usr/hadoop-2.7.3 

export PATH-$PATH:$HADOOP HOME/bin:$HADOOP HOME/sbin 
xport HADOOP CONF DIR-/usr/hadoop-2.7.3/etc/hadoop/ 


(2) 刷新 配置 。 


命令 : souece /etc/source 


4) 修改 Hadoop 文件 夹 权限 
最 后 在 root 用 户 下 修改 hadoop-2. 7. 3 的 权限 ,使 Hadoop 用 户 对 hadoop-2. 7. 3 文件 
夹具 有 控制 权 。 


命令 : chown — R hadoop: hadoop /usr/hadoop - 2.7.3 


5) 切换 Hadoop Hl P! ,新 建 data tmp name 文件 夹 
(D 切换 Hadoop 用 户 。 


命令 : su Hadoop # 以 后 可 以 直接 使 用 该 用 户 登录 主机 
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(2) 进入 /usr/hadoop 一 2.7. 3 并 新 建文 件 夹 。 
命令 : mkdir data name tmp 


(3) 下 面 的 配置 文件 都 在 /usr/hadoop-2. 7. 3/etc/hadoop 下 。 
6) 配置 hadoop-env. sh 


# The directory where pid files are stored. /tmp by default. 

# NOTE: this should be set to a directory that can only be written to by 
# the user that will run the hadoop daemons. Otherwise there is the 
# potential for a symlink attack. 

#export HADOOP PID DIR-$(HADOOP PID DIR) 


export HADOOP PID'DIR-/usr/hadoop-2.7.3/tm| 
一 -一 POO SECURE 一 一 Tri 


# A string representing this instance of hadoop. $USER by default. 
export HADOOP IDENT STRING-$USER 


#java environment 


export JAVA. HOME-/usr/java/jdk1.8.0 iig 


-- INSERT -- 


7) 配置 core-site. xml 


«configuration» 
«property» 
*«name»hadoop .tmp .dir«/name» 
«value»/usr/hadoop-2.7.3/tmp«/value» 
«/property» 
«property» 
«name»fs .defaultFS«/name» 
«value»hdfs://master:9000«/value» 
«/property» 
«/configurationli 


8) 配置 hdfs-site. xml 


«configuration» 
«property» 
«name»dfs .namenode .http-address«/name» 
«value»master:50970«/value» 
«/property» 
«property» 
«name»dfs .namenode . secondary .http -address«e/name» 
«value»master:50990«/value» 
</property> 
<property> 
<name>dfs .namenode .name .dir</name> 
«value»/usr/hadoop-2.7.3/name«/value» 
«/property» 
«property» 
«name»dfs .datanode .data.dir«/name» 
«value-/usr/hadoop-2.7 .3/data«/value» 
«/property» 
«property» 
«name»dfs.replication «/name» 
<value>l</value> 
</property> 
B/configuration> 


9) 配置 mapred-site. xml 
(D 重 命名 mapred-site. xml. template, 


命令 : mv mapred site. xml. templete mapred- site. xml 
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(2) 配置 如 下 。 


E?xm version-"1.0" encoding="UTF-8"?> 
<?xml -stylesheet type-"text/xsl" href="configuration.xsl"?> 


<configuration> 
<property> 
<name>mapreduce .framework .name«/name» 
<value>yarn</value> 
</property> 
<property> 
<name>mapreduce.jobhistory .address</name> 
«value»master:10020«/value» 
«/property» 
<property> 
<name>mapreduce .jobhistory .webapp .address</name> 
<value>master:19888</value> 
</property> 
</configuration> 


10) 配置 yarn-env. sh 
在 最 后 添加 一 条 ,如 下 。 


export YARN PID DIR-/usr/hadoop-2.7.3/tmp 
export JAVA HOME-/usr/java/jdk1.8.0 111 


11) 配置 yarn-site. xml 


Bconfiguration» 


«!-- Site specific YARN configuration properties --» 

«property» 
*«name»yarn.nodemanager.aux-services«/name» 
«value»mapreduce shuffle«/value» 

</property> 

<property> 
«name»yarn.nodemanager.aux-services.mapreduce.shuffle.class«/name» 
«valuesorg.apache .hadoop .mapred .Shuf fLeHandler«e/value» 

«/property» 

«property» 
*«name»yarn.resourcemanager.addressc/name» 
«value»master:8032«/value» 

</property> 

<property> 
<name>yarn . resourcemanager .scheduler .address</name> 
<value>master:8030</value> 

</property> 

<property> 
<name>yarn.resourcemanager.resource-tracker.address</name> 
<value>master:8031</value> 

</property> 

«property» 
«name»yarn.resourcemanager.admin.address«/name» 
«value»master:8033«/value» 

«/property» 

«property» 
*«name»yarn.resourcemanager .webapp .address«/name- 
«value»master:8088«/value» 

«/property» 


«/configuration» 


12) 配置 masters 文件 
CD 该 目录 没有 masters 文件 ,需要 用 户 创 建 。 


命令 : vi masters 





H 
» 


È 
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(2) 配置 如 下 。 


masteri 


(3) 配置 slaves 文件 。 


slavel 
slave2 


(4) 复制 到 其 他 机 器 。 
(1) 将 配置 好 的 Hadoop 文件 夹 复制 到 其 他 机 器 上 。 


命令 : sudo scp-r /usr/hadoop - 2.7.3 slavel:/usr/ 
命令 : sudo scp-r /usr/hadoop - 2.7.3 slave2:/usr/ 


(2) 将 配置 好 的 profile 文件 复制 到 其 他 机 器 上 。 


命令 : sudo scp /etc/profile slavel:/etc 
命令 : sudo scp /etc/profile slave2:/etc 


(3) 用 SSH 登录 其 他 机 器 ,刷新 其 他 机 器 上 的 profile 配置 文件 。 

(4) 修改 slavel 和 slave2 的 Hadoop 文件 夹 权 限 , 参 照 前 面 “修改 Hadoop X f 3e 
权限 ”。 

6. 启动 及 验证 

(1) 测试 Hadoop ,查看 版 本 。 


命令 : hadoop version 
(2) 在 master 主机 上 格式 化 HDFS 文件 系统 并 启动 Hadoop。 


命令 : hdfs namenode - format 
命令 : start - all.sh # 启 动 hadoop 


G) js 命令 查看 。 
CD jps 命令 用 来 查看 各 个 机 器 上 Hadoop 的 各 进程 是 否 正 常 启动 。 


命令 : jps 
© 如 下 所 示 , 则 正常 。 


[hadoop@master sbin]$ jps 
6384 ResourceManager 
6213 SecondaryNameNode 
5994 NameNode 

6668 Jps 

[hadoop@master sbin]$ B 
[hadoopéslavel -]$ jps 
2229 DataNode 

2345 NodeManager 

2492 Jps 

[hadoopéslavel -]$ M 


© 如 果 没 有 出 现 DataNode 等 问题 ,尝试 清空 data name tmp 文件 夹 内 容 并 重启 计算 
机 ,然后 重新 执行 上 述 命令 。 
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[hadoopéslave2 -]$ jps 
2689 Jps 

2426 DataNode 

2543 NodeManager 
[hadoop@slave2 ~]$ M 


(4) 网 页 查看 集群 。 
(D 4TJF master:50070, 如 图 11-20 所 示 则 正常 。 


Nomenode information - Mozilla Firefox. - 


uamenode nformation x | 




















JO /192.168.31 240 50070/diheslth ntmietab-overvew € |[Q seer jra vs 
| DFS Used: 

Non DFS Used: 

DFS Remaining: 63.92 cB (532095) 

Block Pool used: 24KB 10%) 

DataNodes usages% (Min/Median/Max/stdDev): 0.00% / 0.00% / 0.00% / 0.00% 

Uve Nodes 2 (Decommissioned: 0) 

Dead Nodes 0 (Decommissioned: 0) 

Decommissioning Nodes o 

Total Datanode Volume Failures owm 

Number of Under-Replicated Blocks o 

Number of Blocks Pending Deletion o 

Block Deletion Start Time 12/24/2016. 8:49:25 PM 


E 11-20 打开 master:50070 


© 打开 master:8088, 如 图 11-21 所 示 则 正常 ,Hadoop 搭建 完成 。 


desofiedusr N\A 





D |192.168.31.240 8088/cluster/nodes. © jia searen iau 


Sy nadoop) Nodes of the cluster 











Cluster Cluster Metrics 
About Apps Apps | Apps pps Containers Memory Memory Memory VCores VCores VCores | Active Decommi 
Nodes Submitted Pending Running Completed Running Used Total Reserved Used Total Reserved Nodes Nod 
Node Labels. o o o 0 o oB 16GB 0B o 16 o 2 9 
mr Scheduler Metrics. 

NEW SAVING. Scheduler Type Scheduling Resource Type. Minimum Allocation. 

SUBMITTED €i Scheduler [MEMORY] 

Capacity Scheduler I^ ; 

RUNNING 

FINISHED 

EALED Node | Rack o Node Node Node HTTP — Lastheakh-update 

KALER Labels + = Stte 9 Address 9 Address < v 
Scheduler /defauk-rack RUNNING slave2:32916 slave2:8042 Sat Dec 24 
scc RES 20:51:47 +0800 
Tools. 2016 


ldefaukrack RUNNING slavel:40127 slavel:8042 Sun Dec 25 
04:50:13 +0800 
2016 








图 11-21 打开 master:8088 
7. 运行 示例 程序 WordCount 
(1) 在 HDFS 中 创建 input 文件 夹 。 
命令 : hadoop fs -mkdir /input 


(2) 将 需要 分 析 的 txt 文件 移动 到 HDFS 的 input 文件 夹 下 ,这 里 选取 的 是 hadoop X 
件 夹 下 的 LICENSE. txt X ff. 
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命令 : hadoop fs -put LICENSE. txt /input 
命令 : hadoop fs -ls /input # 查 看 文件 是 否 存 在 


[hadoop@master hadoop-2.7.3]$ hadoop fs -ls /input 
Found 1 items 
-rw-r--r-- 1 hadoop supergroup 84854 2016-12-30 10:02 /input/LICENSE.txt 


命令 : hadoop fs -cat /input/LICENSE.txt # 查看 文件 内 容 


[hadoop@master hadoop-2.7.3]$ hadoop fs -cat /input/LICENSE.txt 


Apache License 
Version 2.0, January 2004 
http://www.apache .org/licenses/ 


TERMS AND CONDITIONS FOR USE, REPRODUCTION, AND DISTRIBUTION 
1. Definitions. 


"License" shall mean the terms and conditions for use, reproduction, 
and distribution as defined by Sections 1 through 9 of this document. 


"Licensor" shall mean the copyright owner or entity authorized by 
the copyright owner that is granting the License. 


"Legal Entity" shall mean the union of the acting entity and all 
other entities that control, are controlled by, or are under common 
control with that entity. For the purposes of this definition, 
"control" means (i) the power, direct or indirect, to cause the 
direction or management of such entity, whether by contract or 
otherwise, or (ii) ownership of fifty percent (50%) or more of the 
outstanding shares, or (iii) beneficial ownership of such entity. 


(3) 运行 Hadoop 示例 程序 WordCount。 
示例 程序 位 于 /usr/hadoop-2. 7. 3/share/hadoop/mapreduce/ X (43k rf ~ 


命令 : hadoop jar 
/usr/hadoop - 2. 7. 3/share/hadoop/mapreduce/hadoop - napreduce — 
examples - 2.7.3. jar wordcount /input /output 


如 图 11-22 所 示 是 程序 运行 界面 。 


[hadoopemaster hadoop-2.7.3]$ hadoop jar /usr/hadoop-2.7.3/share/hadoopymapreduce/hadoop-mapreduce-exampLes-2.7 
.3.jar wordcount /input /output 
INFO client.RMProxy: Connecting to ResourceManager at mastor/192.168.31.192:8032 
INFO input.FileInputFormat: Total input paths to process : 1 
INFO mapreduce.JobSubmitter: number of splits:l 
INFO mapreduce.JobSubmitter: Submitting tokens for job: job 1483919050854 0001 
INFO impl.YarnClientImpl: Submitted application application 1483919056854 0001 
INFO mapreduce.Job: The url to track the job: http://master:8088/proxy/application 1483019050, 





854 6001/ 

16/12/30 INFO mapreduce.Job: Running job: job 1483919056854 9601 

16/12/30 INFO mapreduce.Job: Job job 1483919050854 0001 running in uber mode : false 
16/12/30 INFO mapreduce.Job: map 0% reduce O*& 

16/12/30 INFO mapreduce.Job: map 109% reduce 0% 

16/12/38 INFO mapreduce.Job: map 109% reduce 100% 


16/12/30 
16/12/30 


INFO mapreduce.Job: Job job_1483019050854_0001 completed successfully 
INFO mapreduce.Job: Counters: 49 
File System Counters 
FILE: Number of bytes read=29366 
FILE: Number of bytes written=296573 
FILE: Number of read operations-8 
FILE: Number of large read operations-ó 
FILE: Number of write operations-8 
HDFS: Number of bytes read-84955 
HDFS: Number of bytes written-22082 
HDFS: Number of read operations-6 
HOFS: Number of large read operations-9 
HOFS: Number of write operations-2 
Job Counters 
Launched map tasks-l 
Launched reduce tasks-l 
Data-local map tasks-l 
Total time spent by all maps in occupied slots (ms)=7684 
Total time spent by all reduces in occupied slots (ms)-9819 
Total time spent by all map tasks (ms)-7084 
Total time spent by all reduce tasks (ms)-9819 
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(4) 查看 运行 结果 。 

(D 查看 输出 文件 夹 。 

命令 : hadoop fs -ls /output 

© 查看 输出 结果 。 

命令 : hadoop fs -cat /output/part - r — 00000 


部 分 结果 如 图 11-23 所 示 。 
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图 11-23 部 分 输出 结果 
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11.3 ”分布 式 存储 架构 


HDFS 分 布 式 文件 系统 虽然 提供 了 基于 文件 的 底层 数据 存储 结构 ,但 上 层 应 用 程序 对 
数据 的 使 用 往往 并 不 是 以 文件 形式 ,而 更 多 的 是 数据 的 某 种 集合 、 符 合 某 种 属性 的 数据 抽取 
或 是 对 数据 集 的 计算 和 表达 的 形式 ,这 就 需要 在 底层 的 物理 存储 结构 之 上 提供 一 层 数 据 的 
组 织 和 管理 的 逻辑 架构 , 称 为 数据 库 (Database) ,实现 这 种 逻辑 架构 的 软件 就 称 为 数据 库 管 
理 系统 (Database Management System. DBMS) , 

按照 数据 库 性 能 的 CAP(Consistency, Availability, and Partition-tolerance) JA MJES , 
数据 库 可 分 为 三 类 : 满足 Consistency( 一 致 性 ) 和 Availability( 可 用 性 ) 的 CA 类 (以 关系 型 
数据 库 RDBMS 为 代表 ) ,满足 Consistency( 一 致 性 ) 和 Partition-tolerance( 分 区 容忍 性 ) 的 
CP 类 (以 NoSQL 数据 库 HBase"" 为 代表 ). 满 足 Availability( 可 用 性 ) 和 Partition- 
tolerance( 分 区 容忍 性 ) 的 AP 类 (以 NoSQL 数据 库 Cassandra” ,.DynamoDB59 为 代表 ) 。 
关系 型 数据 库 RDBMS 由 于 有 扩展 性 较 差 ,不 支持 非 结构 化 或 半 结 构 化 数据 ,关系 型 数据 表 
格 难以 支持 数据 集 划 分 等 缺陷 ,难以 支持 大 数据 计算 模型 。 

与 关系 型 数据 库 相 比 ,以 BigTable, HBase 为 代表 的 分 布 式 数据 库 ( 也 称 为 NoSQL 数 








第 11 章 “Hadoop 生 态 系统 dui 


据 库 ) 具 有 如 下 特点 。 

(1) 更 善 长 处 理 非 结构 化 、 半 结构 化 数据 。 

(2) 具备 很 强 的 横向 扩展 能 力 ,能 够 通过 在 集群 中 增加 或 者 减少 硬件 数量 来 实现 计算 
能 力 的 伸缩 。 

(3) 支持 高 并 发 读 写 操作 ,能 很 好 地 与 MapReduce 计算 模型 集成 。 

(4) 基于 列 存 储 结构 支持 高 速 访问 。 

(5) 与 分 布 式 文件 系统 比较 ,HBase 支持 随机 访问 模式 。 

x 11-4 中 给 出 了 关系 型 数据 库 RDBMS 与 分 布 式 数据 库 NoSQL 在 设计 原理 、 查 询 效 
率 \、 可 用 性 ,实现 技术 等 方面 的 对 比 。 


表 11-4 RDBMS 与 NoSQL 数据 库 的 对 比 











比较 标准 RDBMS NoSQL 备 注 
数据 库 原理 | 完全 支持 | 部 分 支持 RDBMS 有 数学 模型 支持 ,NoSQL 则 没有 
RDBMS 的 性 能 会 随 着 数据 规模 的 增 大 而 降低 NoSQL 
VERAS [ue EE 可 以 通过 添加 更 多 设备 以 支持 更 大 规模 的 数据 
数据 库 模式 WE “| 灵活 使 用 RDBMS 都 需要 定义 数据 库 模式 ,NoSQL 则 不 用 
简单 查询 非常 高 “RDBMS 可 以 通过 索引 ,快速 地 响应 记录 查询 和 范围 查询 
查询 效率 |i 效 , 较 复 杂 的 查询 | NoSQL 没有 索引 ,虽然 NoSQL 可 以 使 用 MapReduce JL 


性 能 有 所 下 降 查询 速度 ,仍然 不 如 RDBMS 
RDBMS 遵守 ACID 模型 ， NoSQL 遵守 BASE(Basically 
Available .soft state, Eventually consistent) 模 型 





一 致 性 强 一 致 性 | 弱 一 致 性 








扩展 性 一 般 好 RDBMS 扩展 困难 ; NoSQL 扩展 简单 方便 
随 着 数据 规模 的 增 大 ,RDBMS 为 了 保证 严格 的 一 致 性 ， 
可 用 性 好 很 好 只 能 提供 相对 较 弱 的 可 用 性 ; NoSQL 任何 时 候 都 能 提 
供 较 高 的 可 用 性 
标准 化 是 5 RDBMS 已 经 标准 化 (SQL); NoSQL 还 没有 行业 标准 





RDBMS 经 过 几 十 年 的 发 展 ,有 很 好 的 技术 支持 ; NoSQL 
在 技术 支持 方面 不 如 RDBMS 

RDBMS 需要 专门 的 数据 库 管理 员 (DBA) 维 护 ; NoSQL 
数据 库 虽 然 没 有 DBMS 复杂 ,维护 工作 量 也 较 大 


技术 支持 | 高 低 





可 维护 性 “| 复杂 复杂 














非 关系 型 分 布 式 数据 库 H Base!" 是 Google 的 BigTable ii EU 的 一 个 开源 实现 ,也 
是 Apache Hadoop 项 目下 的 一 个 子 项 目 。 在 Hadoop 生态 系统 中 , HBase 处 于 数据 存储 
层 , 位 于 分 布 式 文件 系统 HDFS 之 上 ,为 MapReduce 批 处 理 计算 和 上 层 的 应 用 程序 提供 数 
据 服务 (如 图 11-24 所 示 ) 。 


11.3.1 HBase 系统 架构 


HBase 数据 库 系统 物理 部 署 在 Hadoop 集群 上 ,其 软件 部 署 图 见 图 11-25。HBase 软件 
组 件 有 4 种 角色 : Master. Region Server,ZooKeeper.Client。 这 4 种 组 件 分 散 部 署 在 不 同 
的 机 器 节点 上 ,也 可 以 把 部 署 这 些 组 件 的 节点 看 作 是 一 个 HBase 集群 。 通 常 一 个 HBase 集 
群 中 有 多 个 ZooKeeper 运行 ,这 些 部 署 ZooKeeper 的 节点 构成 一 个 ZooKeeper FÆR. x 
持 数据 访问 服务 的 Region Server 也 是 部 署 在 多 台 机 器 节点 上 ,这 些 节点 也 组 成 一 个 
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Region Server 子 集群 。HBase 系统 中 容许 有 多 个 Master 存在 ,但 在 某 一 时 刻 只 容许 有 一 
个 Master 运行 ,这 个 任务 由 ZooKeeper 来 保证 执行 。 
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Æ 11-24 Hadoop 生态 系统 中 的 HBase 
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图 11-25 HBase 集群 部 署 图 


HBase 的 系统 架构 见 图 11-26。 可 以 看 出 , Hadoop 基础 平台 提供 了 物理 结构 , HDFS 
提供 了 HBase 的 底层 数据 存储 结构 ,Master 节点 管理 着 整个 HBase 集群 ,Region Server 管 
理 多 个 Regions 并 提供 数据 访问 服务 ,ZooKeeper 负责 分 布 式 协调 服务 ,客户 端 提供 了 数据 
库 访 问 接口 。 客 户 端 访问 HBase 的 过 程 并 不 需要 Master 参与 ( 寻 址 访问 只 需要 ZooKeeper 
和 Region Server, 数 据 读 写 只 需要 Region Server), 因 此 Master 的 负载 很 低 。 这 4 种 组 件 
各 自 具 体 作用 如 下 。 

(1) Master; HBase 集群 的 主 控制 服务 器 ,负责 集群 状态 的 管理 维护 。 

(D H Region Server 分 配 Region; 

(2) 管理 Region Server 的 负载 均衡 ,调整 Region 分 布 ; 

( 发 现 失效 的 Region Server 并 重新 分 配 其 上 的 Region; 

(D 处 理 Schema 更 新 请 求 。 

(2) Region Server: HBase 具体 对 外 提供 服务 的 进程 。 一 个 Region Server 一 般 是 一 
台 单 独 的 计算 机 。 一 个 物理 节点 一 般 只 运行 一 个 Region Server, 但 是 它 可 以 管理 多 个 
Regions, 这 些 Regions 可 以 是 来 自 于 不 同 的 表 。 具 体 任务 如 下 。 


^» 
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图 11-26 HBase 系统 架构 


(D 维护 Master 分 配给 它 的 Region, 处 理 对 这 些 Region 的 访问 请 求 , 负 责 向 HDFS X 
件 系统 读 写 数据 ; 

© 负责 切 分 在 运行 过 程 中 变 得 过 大 的 Region。 

(3) ZooKeeper: 分 布 式 协调 服务 器 。 提 供 可 靠 的 锁 服 务 并 保证 集群 中 所 有 的 机 器 看 
到 的 视图 是 一 致 的 ,HBase 使 用 ZooKeeper 服务 来 进行 节点 管理 以 及 表 数 据 定位 。 具 体 职 
责 如 下 。 

CD 保证 任何 时 候 集群 中 只 有 一 个 Master 运行 ; 

© 存储 所 有 Region 的 寻 址 入 口 ; 

@ 实时 监控 Region Server 的 状态 ,将 状态 信息 实时 通知 给 Master; 

(D 存储 HBase 的 Schema, 包 括 有 哪些 Table, 每 个 Table 有 哪些 Column Family. 

(4) Client: 包含 访问 HBase 的 接口 。Client 维护 着 一 些 Cache 来 加 快 对 HBase 的 访 
问 ,比如 Region 的 位 置信 息 。 

在 继续 介绍 HBase 架构 的 主要 组 件 之 前 ,需要 理解 几 个 HBase 存储 结构 的 概念 。 

1. Region 

Region 是 将 数据 表 按 照 RowKey 划分 形成 的 子 表 (或 表 的 一 部 分 ), 相 当 于 DBMS 中 
的 分 区 。 同 时 ,Region 也 是 数据 表 在 集群 中 存储 的 最 小 单位 ,可 以 被 分 配 到 某 一 个 Region 
Server 进行 存储 管理 。 如 图 11-27 所 示 , 表 A 的 a, b. c. d 行 划分 成 Region 1, 存 放 在 
Region Server 7 上; X A É i. js k, 1 行 划分 成 Region 3, 存 放 在 Region Server 86 上 ,等 
等 。 各 个 Region 的 大 小 基本 相同 ,一 个 Region Server 可 存放 多 个 Regions( 一 般 存储 10 一 
1000 个 Regions) ,各 个 Region Server 存放 的 Region 数目 大 致 相同 ,以 达到 负载 均衡 的 
目的 。 

Region 内 部 包含 一 个 HLog 日 志和 多 个 Store, 数 据 实际 上 是 存储 在 Store 单元 中 。 
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Table A 
Table A, Region 1 
"n NE Table A, Region 2 
Region 1 Table G, Region 1070 
1 | | Table L, Region 25 
S z 
f Region Server 86 
Region 2 = 
g Table A, Region 3 
hl m Table C, Region 30 
Li] Table F, Region 160 
Region 3 x Table F, Region 776 
NS [--. Region Server 367 
m 
n | 一 Table A, Region 4 
Region 4 | [5 Table C, Region 17 
P Table E, Region 52 
F Table P, Region 1116 
Legend: 


A single table is partitioned into Regions of roughty equal size. 
Regions are assigned to Region Servers across the cluster. 
Region Servers host roughty the same number of regions. 


A 11-27 数据 表 Region 的 划分 


2. Store 


Region pj 3B X fk HE 3j f (Column Famliy) 分 为 不 同 的 Store, 每 个 Store 由 一 个 
MemStore 和 多 个 StoreFile 组 成 ,如 图 11-28 所 示 。MemStore 是 内 存 中 的 一 个 缓存 区 ,而 
StoreFile 是 写 到 硬盘 上 的 数据 文件 。 用 户 写 入 的 数据 首先 会 放 人 MemStore H, 当 
MemStore 满 了 以 后 会 清空 形成 一 个 新 StoreFile。 客 户 端 检索 数据 时 , 先 在 MemStore 中 
找 , 找 不 到 再 找 StoreFile, 这 样 就 提高 了 检索 效率 。 

当 StoreFile 文件 数量 增长 到 一 定 阅 值 时 ,会 触发 compact 操作 ,将 多 个 StoreFile 合并 
成 一 个 StoreFile, 在 合并 过 程 中 会 进行 StoreFile 版 本 合并 和 数据 删除 。 可 以 看 出 ,HBase 
其 实 只 有 增加 数据 需要 即时 响应 ,所 有 的 更 新 和 删除 操作 都 是 在 后 续 的 Compact 过 程 中 进 
行 的 ,这 就 使 得 用 户 写 操作 的 1/0 性 能 得 到 保证 。 

StoreFiles 在 触发 Compact 操作 后 会 逐步 形成 较 大 的 StoreFile, 当 单个 StoreFile 大 小 
超过 一 定 阅 值 后 ,会 触发 split 操作 , 即 把 当前 的 Region 分 裂 成 两 个 子 Regions, 原 来 的 
Region 会 下 线 。 新 分 裂 成 的 两 个 子 Region 会 被 Master 分 配 到 相应 的 Region Server E. 
使 得 原来 的 一 个 Region 的 负载 压力 得 以 分 流 到 两 个 Region 上 ,这 是 HBase 提供 的 一 种 负 
载 均衡 机 制 。 

StoreFile 的 数据 实际 是 通过 HFile 的 形式 存储 在 HDFS 文件 系统 中 。 每 个 Region 内 
部 还 包含 一 个 实现 WALCWrite Ahead Log) 的 HLog, 每 次 写 人 数据 到 MemStore 时 ,也 会 
写 一 份 数据 到 HLog 文件 中 ,HLog 文件 定期 会 更 新 并 删除 旧 文 件 (已 经 持久 化 到 StoreFile 
中 的 数据 ) 。 

3. HFile 


每 个 StoreFile 都 包含 一 个 HFile X fF. HFile 是 Hadoop 的 二 进 制 格式 文件 ,实际 上 
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图 11-28 HBase 存储 结构 Region.Store 与 HFile 


StoreFile 就 是 HFile 的 轻 量 级 包装 ,数据 最 终 是 以 HFile 的 形式 存储 在 Hadoop 平台 上 。 
HFile 采用 一 个 简单 的 Byte 数组 存储 数据 的 每 个 键 值 对 ,这 个 Byte 数组 里 面包 含 很 多 项 ， 
有 固定 的 格式 ,每 项 有 具体 的 含义 。HFile 的 格式 如 图 11-29 所 示 。HFile 的 Byte 数组 由 
下 面 6 部 分 组 成 。 

(1) DataBlock Bt; 用 来 保存 表 中 的 数据 ,这 部 分 可 以 被 压缩 ; 每 个 Data 块 除了 开头 的 
Magic 以 外 就 是 一 个 个 Key-Value 对 拼接 而 成 ,Magic 内 容 就 是 一 些 随机 数字 ,目的 是 防止 
数据 损坏 。 

(2) MetaBlock 段 ( 可 选 ): 保存 用 户 自 定义 的 Key-Value 对 ,可 以 被 压缩 。 

(3) FileInfo 段 : HFile 的 元 信息 ,不 被 压缩 。 用 户 也 可 以 在 这 一 部 分 添加 自己 的 元 
信息 。 

(4) DataBlock Index Bt: Data Block 的 索引 。 每 条 索引 的 Key 是 被 索引 的 Block 的 第 
一 条 记录 的 Key, 记 录 了 每 个 Data 块 的 起 始点 。 

(5) MetaBlock Index 段 ( 可 选 ): Meta Block 的 索引 ,记录 了 每 个 Meta 块 的 起 始点 。 

(6) Trailer BE; 这 一 段 是 固定 长 度 的 。 保 存 了 每 一 段 的 偏 移 量 。 读 取 一 个 HFile 时 会 
首先 读 取 Trailer. Trailer 包含 每 个 段 的 起 始 位 置 ( 段 的 Magic Number 用 来 做 安全 检查 )， 
然后 DataBlock Index 会 被 读 取 到 内 存 中 ,这 样 , 当 检 索 某 个 Key 时 ,不 需要 扫描 整个 
HFile, 而 只 需 从 内 存 中 找到 Key 所 在 的 Block, 通 过 一 次 磁盘 L/O 将 整个 Block 读 取 到 内 
存 中 ,再 找到 需要 的 Key。 
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Æ 11-29 HFile 的 格式 
11.3.2. 数据 模型 与 存储 模式 


HBase 是 一 个 面向 列 的 、 稀 朴 的 分布 式 的 、 持 久 化 存储 的 多 维 排序 映射 表 (Map)。 表 
的 索引 是 行 关键 字 (RowKey) F1] f& 44 (Column Family)、 列 关键 字 (ColumnKey) 以 及 时 间 
TC Timestamp) , 表 中 的 每 个 值 都 是 一 个 未 经 解析 的 Byte 数组 。 

HBase 的 数据 模型 ， HBase 以 表 (Table) 的 形式 存储 数据 。 表 由 行 (Row) 和 列 族 
(Column Family) 组 成 ,一 个 表 可 包含 若干 个 列 族 ,一 个 列 族 内 可 用 列 限定 符 CQualifier) 来 
标志 不 同 的 列 , 存 于 表 中 单元 (Cell) 的 数据 尚 需 打 上 时 间 戳 (Timestamp)。HBase 的 数据 
模型 的 各 个 元 素 定义 如 下 。 

1. 表 (Table) 

一 个 HBase 的 表 由 很 多 行 构成 。 

2. 行 键 (RowKey) 

行 键 是 字 节 数组 ,任何 字符 串 都 可 以 作为 行 键 。 表 中 的 行 根据 行 键 进行 排序 ,数据 按照 
RowKey 的 字 节 序 排序 存储 ; 所 有 对 表 的 访问 都 要 通过 行 键 ( 单 个 RowKey 访问 ,或 
RowKey 分 段 访 问 ,或 全 表 扫 描 ) 。 

3. 列 族 (Column Family) 

列 族 必须 在 表 定 义 时 给 出 。 每 个 列 族 可 以 包含 一 个 或 多 个 列 ( 由 列 限定 符 Column 
Qualifier 标志 ) , 列 成 员 不 需要 在 定义 时 给 出 ,可 以 随后 按 需 要 动态 加 入 。 

数据 按 Column Family 分 开 存储 ,HBase 所 谓 的 列 式 存储 就 是 基于 Column Family 分 
散 存 储 ( 每 一 个 Column Family 对 应 一 个 Store) 。 
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4. 单元 格 (Cell) 


单元 位 置 由 行 键 、 列 族 、 列 限定 符 唯 一 确定 ,单元 中 存储 的 数据 是 没有 类 型 的 ,全 部 以 字 


节 码 的 形式 存储 。 
5. Ria Æ (Times tamp) 


A 1 8f oc f i EAT CAS B EST E AS [3] T EU EAA , E A ERRED A DC 
































HBase 的 存储 模式 有 以 下 两 种 。 
1. 存储 逻辑 视图 
以 图 11-30 的 表 (Table ) 的 逻辑 视图 为 例 ,这 个 表 共 有 5 行 , 行 键 值 均 为 “com. enn. www", 
Row Key Time | ColumnFamily| ColumnFamily | ColumnFamily 
Stamp | contents anchor people 
"com.cnn www | t9 anchorannsi.com 
="CNN” 
"com.enn.www' | t8 | anchor:mylook.c 
a-"CNN.com' 
"tom.cnn www" | t6 contents-htmi- | 
“<html>_” 
"com.cnn.www | tS Contents:html- | 
“<html>...” 
"com.cnn.www" | 5 contents:htmi- | | 
“<html>” 














A 11-30 ”数据 模型 : 表 的 逻辑 视图 


它 包含 三 个 列 族 , 列 族 名 分 别 为 contents”,“anchor”,“people”。 
列 族 contents 只 含有 一 个 列 ( 列 限制 符 qualifier 为 "contents: html"), 
列 族 anchor 含有 两 个 列 ( 列 限制 符 qualifier 分 别 为 “anchor: cnnsi. com” 和 “anchor: 


my. look. ca”), 


列 族 people 目前 不 包含 任何 列 。 


由 RowKey 一 “com. cnn. www". ColumnFamily — *contents" , Qualifier 二 “html” 组 合 确 
定 的 单元 (Cell) 所 存储 的 数据 *< html >...” 有 三 个 版 本 (对 应 的 时 间 惟 分 别 为 t3, t5, t6) 。 

综 上 所 述 ,在 HBase 数据 模型 中 ,一 个 三 元 组 (RowKey, ColumnFamily: Qualifier, 
Timestamp) 或 ( 行 键 , 列 族 : 列 限 制 符 , 时 间 戳 ) 可 以 唯一 地 确定 存储 在 单元 (Cell) 中 的 数 
据 。 常 说 NoSQL 数据 库 以 键 值 对 (Key-Value Pair) 的 形式 存储 数据 ,这 里 的 Key 实际 上 是 
一 个 三 元 组 ( 行 键 , 列 族 : 列 限制 符 , 时 间 戳 ) ,而 Value 就 是 这 个 三 元 组 定位 的 数据 值 ( 带 有 
时 间 戳 )。 以 图 11-31 为 例 , 行 键 “201505003”, 列 族 : 列 限制 符 “Info: email”, E [8] 
“1174184619081” 构 成 了 一 个 三 元 组 [201505003”,“Info: email”，1174184619081], 它 可 


以 唯一 地 确定 存储 数据 值 "xie@qq. com" 











键 (Key) 


[7201505003", “Info: email", 1174184619081] 








[7201505003", “Info: email", 1174184620720] 





18 (Value) 


“you@163.com” 









A 11-31 键 值 对 (Key-Value Pair) 存 储 
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2. 存储 物理 视图 

上 述 的 数据 模型 逻辑 视图 表述 了 HBase 数据 表 的 结构 、 元 素 及 其 对 应 关系 , 表 的 逻辑 视 
图 仍 是 按照 行 键 (RowKey) 来 组 织 。 但 实际 上 ,HBase 中 表 的 物理 存储 方式 是 按照 列 来 组 织 。 

以 图 11-30 的 数据 表 为 例 ,在 存储 时 此 表 顺 着 行 的 方向 基于 列 族 划 分 为 如 下 两 个 
Region( 图 11-32) , 即 一 个 列 族 对 应 生成 一 个 Region。 列 族 people 由 于 是 空白 单元 ,不 包含 














数据 值 ,因此 不 生成 Region。 
列 族 
行 键 Rm. | contents 
t6 | contents:html="<html>..." 





"com.cnn.www" | contents:html="<html>..." 





contents:html="<html>..." 





列 族 


anchor 


行 键 BHEIR | 





anchor:ennsi.com-"CNN" 
"com.enn. www" 








contents:my.lool.ca-" CNN.com" 


E 11-32 表 切 分 成 的 两 个 Region 


在 实际 存储 时 ,数据 表 实 际 上 是 按 图 11-33 的 Region 方式 进行 存储 。 表 划分 出 的 列 族 
(ColumnFamily) 对 应 着 物理 存储 区 的 Region, 列 族 所 包含 的 列 (Column) 对 应 着 的 存储 区 
Region 所 包含 的 Store, 如 图 11-34 所 示 。11. 3. 1 节 详 细 描 述 了 Region 和 Store 在 HDFS 
系统 上 的 存储 方式 。 





Region 1 3 (Table) 


om | 
contents 


contents:html="<html>..." 


"com.enn.www" 5 contents:html-" html..." 





contents:html-" «html»..." 





t9 anchor:ennsi.com="CNN" 





“me contents:my.lool.ca="CN 


N.com" 














Hii11-33 ” 表 存 储 物理 视图 
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图 11-34 表 的 物理 存储 模式 


每 个 表 一 开始 只 有 一 个 Region, 随 着 数据 不 断 插入 表 中 ,Region 不 断 增 大 , 当 增 大 到 一 
个 阔 值 的 时 候 ,Region 就 会 等 分 成 两 个 新 的 Region。 当 表 中 的 行 不 断 增多 时 ,就 会 有 越 来 
越 多 的 Region, 如 图 11-35 所 示 。 


Table Table 


Region 





Region 




















图 11-35 Region 的 分 裂 


Region 是 HBase 中 分 布 式 存储 和 负载 均衡 的 最 小 单元 。 属 于 同一 张 表 的 多 个 Region 
可 能 分 配 到 不 同 的 Region Server 上 管理 ,但 同一 Region 是 不 会 再 拆 分 到 多 个 Region 
Server 上 的 。 表 的 Region 部 署 示意 图 见 图 11-36 。 


Region Servers 

















Hi11-36 X Region 的 部 署 
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11.3.3 HBase 数据 读 写 


HBase 提供 如 下 6 种 访问 接口 。 

(1) Native Java API: 最 常规 和 高 效 的 访问 方式 ,适合 Hadoop MapReduce 作业 并 行 
批 处 理 HBase 表 数 据 。 

(2) HBase Shell; HBase 的 命令 行 工 具 , 最 简单 的 接口 ,适合 系统 管理 员 使 用 。 

(3) Thrift Gateway? : 利用 Thrift 序列 化 技术 ,支持 C++、PHP、Python 等 多 种 语言 ， 
适合 其 他 异 构 系 统 在 线 访问 HBase 表 数 据 。 

(4) REST Gateway? ; 支持 REST 风格 的 HTTP API 访问 HBase, 解 除了 语言 限制 。 

(5) Pig: 可 以 使 用 Pig Latin 流 式 编程 语言 来 操作 HBase 中 的 数据 ,和 Hive 类 似 ,本 
质 最 终 也 是 编译 成 MapReduce Job 来 处 理 HBase 表 数 据 , 适 合 做 数据 统计 。 

(6) Hive: 可 以 使 用 类 似 SQL 的 语言 来 访问 HBase。 

HBase 使 用 了 如 图 11-37 所 示 的 三 层 结构 来 提供 数据 访问 的 寻 址 机 制 。 这 三 层 结构 
为 : ZooKeeper 文件 ,-ROOT- 表 ,. META. 表 , 它 们 各 自 包 含 的 信息 如 下 。 

(1) ZooKeeper 文件 记录 了 -ROOT- 表 的 位 置 。 

(2) -ROOT- 表 , 又 名 根 数据 表 , 包含 . META. 表 的 第 一 个 Region, 其 中 保存 了 . 
META. 表 其 他 Region 的 位 置信 息 。-ROOT- 表 只 能 有 一 个 Region, 名 字 是 固定 的 。 通 过 - 
ROOT- 表 ,就 可 以 访问 . META. 表 中 的 数据 。 

(3) .META. 表 ,又 名 元 数据 表 , 存 储 了 用 户 数据 表 的 Regions 和 Region Server 的 映 
HKR.. META. 表 可 以 有 多 个 Regions, 


用 户 数据 表 

















用 户 数据 表 





ZooKeeper 文 件 一 一 | -ROOT- 表 
































图 11-37 HBase 元 数据 的 三 层 结 构 


为 了 加 快 访问 速度 ,. META. 表 的 全 部 Region 都 会 被 保存 在 内 存 中 。 假 设 . META. 
表 的 每 行 (一 个 映射 条 目 ) 在 内 存 中 大 约 占 用 1KB, 并 且 每 个 Region 大 小 默认 为 256MB( 可 
以 设置 更 大 值 ), 那 么 ,上 面 的 三 层 结 构 可 以 保存 的 用 户 数据 表 的 Region 数目 的 计算 方 
法 是 : 

(-ROOT- 表 能 够 寻 址 的 . META. 表 的 Region 个 数 ) X (每 个 . META. X Region 可 以 
寻 址 的 用 户 数据 表 的 Region 个 数 ) 

一 个 -ROOT- 表 只 有 一 个 唯一 的 Region, 也 就 是 最 多 只 能 有 256MB。 按 照 每 行 (一 个 映 
射 条 目 ) 占 用 1KB 内 存 计 算 ,256MB 空间 可 以 容纳 256MB/1KB 二 28 行 ,也 就 是 说 ,一 个 
-ROOT- 表 可 以 寻 址 2* 个 . META. 表 的 Region, 

同 理 , 每 个 . META. 表 的 Region 可 以 寻 址 的 用 户 数据 表 的 Region 个 数 是 
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256MB/1KB=2", 


最 终 ,三 层 结构 可 以 保存 的 Region 数目 是 (256MB/1KB) X (256MB/IKB) = 2*4 
Region, 

客户 端 (Client) 并 不 是 直接 从 Master. 主 服务 器 上 读 取 数据 ,而 是 从 ZooKeeper 获得 
Region 的 存储 位 置信 息 后 ,直接 在 Region Server. 上 读 写 数据 ,因此 客户 端 并 不 依赖 
Master。 客 户 端 访问 用 户 数据 表 之 前 首先 访问 ZooKeeper, 然后 访问 -ROOT- 表 ,接着 访 
问 . META. 表 ,最 后 才能 找到 存放 用 户 数据 的 Region Server 位 置 , 中 间 需 要 多 次 网 络 操作 ， 
不 过 客户 端 会 做 cache 缓存 来 加 快 对 HBase 的 访问 。 客 户 端 使 用 HBase 的 RPC 机 制 与 
Master 和 Region Server 进行 通信 ,对 于 管理 类 操作 ,客户 端 与 Master 进行 RPC; 对 于 数 
据 读 写 类 操作 ,客户 端 与 Region Server 进行 RPC, 

在 通过 . META. 表 找 到 对 应 的 Region Server 位 置 后 ,可 对 该 Server 上 的 HFile 进行 
扫描 读 取 所 需 数据 。 在 HBase 中 ,所 有 的 存储 文件 都 被 划分 成 了 若干 个 存储 块 ,这 些 存储 
块 在 get 或 scan 操作 时 会 加 载 到 内 存 中 。 存 储 块 大 小 的 默认 值 是 64KBCHBase 中 HFile 
的 默认 大 小 值 就 是 64KB, 跟 HDFS 的 Block Size 是 64MB 没关系 )HBase 顺序 地 读 取 一 个 
数据 块 到 内 存 缓存 中 ,再 读 取 相 邻 数据 时 就 可 以 从 内 存 中 读 取 而 不 需要 读 磁 盘 ,这 样 有 效 地 
减少 了 磁盘 L/O 的 次 数 。 客 户 端 写 数据 的 具体 流程 如 下 。 

(D Client 向 Region Server 提交 写 数据 请 求 ; 

(2) Region Server 找到 目标 Region; Region 检查 数据 是 否 Schema 一 致 ; 

(3) 如 果 客 户 端 没有 指定 版 本 , 则 获取 当前 系统 时 间作 为 数据 版 本 ; 

COD 将 数据 更 新 写 人 HLog(WAL), 只 有 HLog 写 入 完成 之 后 ,commit() 才 返回 给 客 
户 端 ; 

(5) 将 数据 更 新 写 人 MemStore; 

(6) 判断 MemStore 是 否 需 要 Flush 为 StoreFile, 若 是 , 则 Flush 生成 一 个 新 StoreFile; 

(7) StoreFile 数目 增长 到 一 定 阔 值 , 触 发 compact 合并 操作 ,多 个 StoreFile 合并 成 一 
个 StoreFile, 同 时 进行 版 本 合并 和 数据 删除 ; 

(8) 若 单个 StoreFile 大 小 超过 一 定 阔 值 ,触发 split 操作 ,把 当前 Region 拆 分 成 两 个 子 
Region ,原来 的 Region 会 下 线 , 新 分 出 的 两 个 子 Region 会 被 Master 重新 分 配 到 相应 的 
Region Server 上 。 

在 写 数据 过 程 中 , HBase 主要 使 用 MemStore 和 StoreFile 两 个 存储 结构 对 表 进 行 更 
新 ,首先 写 人 HLog( Write Ahead Log, WAL) FI MemStore( 缓 存 ), 如 图 11-38 Ca) 所 示 。 
MemStore 中 的 数据 是 排序 的 , 当 MemStore 累计 到 一 定 阅 值 时 ,就 会 创建 一 个 新 的 
MemStore, 并 且 将 老 的 MemStore 添加 到 Flush 队列 ,由 单独 的 线程 刷 写 到 磁盘 上 ,成 为 一 
个 新 StoreFile( 实 际 上 是 写 人 HFile) ,如 图 11-38(b) 所 示 。 与 此 同时 ,系统 会 在 HLog 中 记 
录 一 个 检查 点 ,表示 这 个 时 刻 前 的 变更 已 持久 化 。 

大 型 分 布 式 系统 中 硬件 故障 很 常见 ,系统 出 现 意 外 时 可 能 导致 缓存 MemStore 的 数据 
丢失 ,此 时 使 用 HLog 来 恢复 检查 点 之 后 的 数据 。 每 个 Region 服务 器 都 有 一 个 自己 的 
HLog 文件 (WAL) ,每 次 启动 都 检查 该 文件 ,确认 最 近 一 次 执行 缓存 刷新 操作 之 后 是 否 发 
生 新 的 写 人 操作 ; 如 果 发 现 更 新 , 则 先 写 入 MemStore, 再 刷 写 到 StoreFile, 最 后 删除 旧 的 
HLog 文件 ,开始 为 用 户 提供 服务 。 


2) 大 数据 分 析 与 计算 
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图 11-38 Client 写 数 据 的 流程 


系统 周期 性 地 把 MemStore 缓存 里 的 内 容 刷 写 到 磁盘 的 StoreFile 文件 中 ,StoreFile 是 
只 读 的 ,一 旦 创建 后 就 不 可 以 再 修改 。 因 此 HBase 的 更 新 其 实 是 不 断 追 加 的 操作 。 当 一 个 
Store 中 的 StoreFile 达到 一 定 的 阅 值 后 ,就 会 进行 一 次 合并 ,将 同一 个 Key 的 修改 合并 到 一 
起 ,形成 一 个 大 的 StoreFile; 当 StoreFile 的 大 小 达到 一 定 阅 值 后 ,又 会 对 StoreFile 进行 分 
裂 ,等 分 为 两 个 StoreFile。 


11.3.4 数据 仓库 工具 Hive 


Hive 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 ,是 一 种 底层 封装 了 Hadoop 的 数据 库 
转换 处 理工 具 , 可 以 将 结构 化 的 数据 文件 映射 为 一 张 数据 库 表 ,并 提供 完整 的 SQL 查询 功 
能 。Hive 可 以 将 SQL 语句 转换 为 MapReduce 计算 任务 ,而 不 必 开 发 专门 的 MapReduce 
计算 程序 ,因此 十 分 适合 数据 仓库 的 统计 分 析 。Hive 的 设计 特点 如 下 。 

(1) 支持 索引 ,加 快 数据 查询 。 

(2) 支持 不 同 的 存储 类 型 ,例如 纯 文本 文件 .HBase 文件 。 

(3) 将 元 数据 存在 关系 数据 库 中 ,大 大 减少 了 查询 过 程 中 执行 语义 检查 的 时 间 。 

(4) 可 以 直接 使 用 存储 在 Hadoop 文件 系统 中 的 数据 。 

CO. AEA EHA R UDF 来 操作 时 间 、 字 符 串 和 其 他 的 数据 挖掘 工具 ,支持 用 户 扩 
展 UDF 函数 来 完成 内 置 函 数 无 法 实现 的 操作 。 

(6) 采用 类 似 SQL 的 查询 方式 ,将 SQL 查询 转换 为 MapReduce 的 Job 在 Hadoop f£ 
群 上 执行 运算 。 

(7) Hive 构建 在 基于 静态 批 处 理 的 Hadoop 上 , Hadoop 通常 都 有 较 高 的 延迟 并 且 在 
作业 提交 和 调度 的 时 候 需 要 大 量 的 开销 。 因 此 ,Hive 不 能 够 在 大 规模 数据 集 上 实现 低 延 迟 
快速 的 查询 。 

例如 ,Hive 在 几 百 MB 的 数据 集 上 执行 查询 一 般 有 分 钟 级 的 时 间 延 迟 。 因 此 Hive 并 
不 适合 那些 需要 低 延 迟 的 应 用 ,例如 联机 事务 处 理 (OLTP)。Hive 查询 过 程 将 用 户 的 
HiveQL 语句 转换 为 MapReduce 作业 提交 到 Hadoop 集群 上 , Hadoop MapReduce 完成 作 
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业 计 算 ,然后 返回 执行 结果 给 用 户 。Hive 并 非 为 联机 事务 处 理 而 设计 , Hive 并 不 提供 实时 
的 查询 和 基于 行 的 数据 更 新 操作 。Hive 的 最 佳 使 用 场合 是 大 数据 集 的 批 处 理 作 业 , 比 如 网 
络 日 志 分 析 。 

图 11-39 描述 了 Hive 的 技术 架构 。Hadoop/HDFS 提供 了 Hive 的 底层 数据 存储 平 
台 ,MapReduce 则 提供 了 数据 计算 分 析 模 型 。Hive 自身 架构 包括 如 下 组 件 : CLI 
(Command Line Interface). JDBC/ODBC. Thrift Server. Web GUI. Metastore 和 Driver 
(Complier. Optimizer 和 Executor) ,这 些 组 件 可 以 分 为 两 大 类 : 服务 端 组 件 和 客户 端 组 件 。 


Hive 系统 结构 

Hive 包括 

"元 数据 存储 ( Metastore ) 

* 驱动 (Driver) 

* 查询 编译 器 ( QueryCompiler ) 
， 执 行 引擎 ( ExecutionEngine ) 
"服务 器 ( HiveServer ) 

* 客户 端 组 件 

* 可 扩展 接口 部 分 


























图 11-39 Hive 的 技术 架构 


1. 服务 端 组 件 

Driver 组 件 : 该 组 件 包括 Complier、Optimizer 和 Executor。 它 的 作用 是 将 应 用 程序 写 
的 HiveQL( 类 SQL) 语 句 进行 解析 、 编 译 优化 ,生成 执行 计划 ,然后 调用 底层 的 MapReduce 
计算 框架 。 

Metastore 组 件 : 元 数据 服务 组 件 。 这 个 组 件 将 Hive 的 元 数据 存储 在 关系 数据 库 里 ， 
Hive 支持 的 关系 数据 库 有 Derby、MySQL。 元 数据 对 于 Hive 十 分 重要 ,因此 Hive 支持 把 
Metastore 服务 独立 出 来 ,安装 到 远程 的 服务 器 集群 里 ,从 而 解 耦 Hive 服务 和 Metastore 服 
务 , 保 证 Hive 运行 的 健壮 性 。 

Thrift Server: Thrift 是 Facebook 开发 的 一 个 软件 框架 ,用 来 支持 可 扩展 跨 语言 服务 
的 开发 , Hive 集成 了 该 服务 ,以 使 不 同 的 编程 语言 调用 Hive 的 接口 。 

2. 客户 端 组 件 

CLI: Command Line Interface, 命 令 行 接口 。 

Thrift 客户 端 : Hive 架构 的 许多 客户 端 接口 是 建立 在 Thrift 客户 端 之 上 ,包括 JDBC 
和 ODBC 接口 。 

Web GUI: Hive 客户 端 提供 一 种 通过 Web 方式 访问 Hive 所 提供 的 服务 。 这 个 接口 
对 应 Hive 的 HWI 组 件 (Hive Web Interface) ,使 用 前 需要 启动 HWI 服务 。 

Hive 客户 端 CLI 连接 Hadoop 平台 和 HBase 数据 库 的 方式 有 如 下 三 种 。 

1) 单 用 户 模式 

此 模式 连接 到 一 个 In-memory 的 数据 库 Derby( 图 11-400 ,一 般 用 于 程序 的 单元 测试 。 
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LN CON NN CNN 
javaxjdo.option.ConnectionURL JDBC connection URL along with  jdbc:derby:;databaseName-metast. 


database name containing metadata ore db;create-true 
javax.jdo.option.ConnectionDriv JDBC driver name. Embedded Derby for org.apache.derby.jdbc.EmbeddedD 
river 


erName Single user mode. 
javax.jdo.option.ConnectionUse User name for Derby database. APP 
rName 
javax.jdo.option.ConnectionPas Password mine 
sword 
图 11-40 Hive CLI 单 用 户 模式 
2) 多 用 户 模式 
多 个 Hive 客户 端 通过 网 络 连接 到 数据 库 ( 图 11-4) ,是 最 经 常 使 用 到 的 模式 。 
Hive CLI | FF A 
Meta Store MySQL 
CIE | Server 
Parameter | Description Example 
javaxjdo.option.ConnectionURL JDBC connection URL along with jdbc:mysql://«host name>/ 
database name containing metadata name»? 
javax.jdo.option.ConnectionDriv Any JDO supported JDBC driver. com.mysql.jdbc.Driver. 
erName 
javax.jdo.option.ConnectionUse User name 
rName 


javaxjdo.option.ConnectionPas Password 
sword 


图 11-41 Hive CLI 多 用 户 模式 


3) 远程 服务 器 模式 

用 于 非 Java 客户 端 访 问 元 数据 库 , 在 服务 器 端 启动 MetaStore Server. 客户 端 利 用 
Thrift 协议 通过 MetaStore Server 访问 元 数据 库 ( 图 11-42) 。 

Hive 执行 类 SQL 查询 的 工作 流程 如 图 11-43 Bros ,具体 执行 步骤 如 下 。 

步骤 1: execute Query 

Hive 命令 行 或 Web UI 发 送 查询 给 驱动 程序 (任何 数据 库 驱动 程序 ,如 JDBC.ODBC 等 ) 。 

步骤 2: get Plan 

驱动 程序 将 查询 语句 发 送 给 编译 器 ,检查 语法 和 查询 计划 。 

步骤 3: get MetaData 

编译 器 发 送 元 数据 请 求 到 Metastore( Hive AER f GS HE) 。 
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* Server Configuration same as multi user mode client config (prev slide). To run server 
$JAVA HOME/bin/java -Xmx1024m -Dlog4j.configuration-file://$HIVE HOME/conf/hms-log4j.properties 
-Djava.library.path-S$HADOOP. HOME/lib/native/Linux-amd64-64/ -cp $CLASSPATH 
org.apache.hadoop.hive.metastore.HiveMetaStore 


* Client Configuration 


Parameter | Description Example 
hive.metastore.uris Location of the metastore server thrift://<host_name>:9083 
hive.metastore.local false 


图 11-42 Hive CLI 多 用 户 模式 
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图 11-43 Hive 执行 查询 的 工作 流程 





步骤 4: send MetaData 

Metastore 返回 元 数据 给 编译 器 。 

步骤 5: send Plan 

编译 器 检查 要 求 并 返回 执行 计划 给 驱动 程序 ,查询 解析 和 编译 完成 。 

步骤 6: execute Plan 

驱动 程序 发 送 的 执行 计划 到 执行 引擎 ,包括 如 下 几 个 步骤 。 

(1) execute Job 

执行 引擎 把 计划 发 送 给 Hadoop JobTracker 去 完成 MapReduce 计算 。 
metaDataOps for DDL: 执行 引擎 DDL 同时 对 Metastore 进行 元 数据 操作 。 


E 大 数据 分 析 与 计算 


(2) job Done 

JobTracker 返回 计算 结果 给 执行 引擎 。 

(3) 执行 引擎 连接 NameNode 完成 文件 操作 。 

步骤 7: fetch Results 

Hive 命令 行 或 Web UI 发 送 接收 结果 指令 给 驱动 器 程序 。 

步骤 8: fetch Results 

驱动 器 程序 把 执行 接收 指令 发 送 给 执行 引擎 。 

步骤 9: fetch Results 

执行 引擎 执行 接收 指令 ,从 DataNode 节点 处 取得 查询 结果 。 

然后 按照 执行 引擎 一 驱动 器 程序 一 客户 端的 顺序 把 查询 结果 返回 给 客户 端 。 


11.3.5 HBase 安装 与 配置 


1. 集群 环境 

1) 环境 配置 

CentOS 版 本 : centos-release-7. 3. 1611. e17. centos. X86. 64 

Java 版 本 : Java 1. 8. 0. 111-bl4 

Hadoop 版 本 : Hadoop-2. 7. 3 

ZooKeeper 版 本 : ZooKeeper 3. 4. 8 

HBase 版 本 : HBasel. 2.4 

2) 部 署 说 明 

(1) 在 搭建 完成 Hadoop 集群 的 基础 上 进行 HBase 的 搭建 。 

(2) 默认 安装 过 程 在 目标 master 机 器 上 进行 ,根据 提示 在 其 他 机 器 上 执行 操作 。 

(3) 若 无 提 示 , 所 有 ZooKeeper 和 HBase 配置 操作 过 程 均 在 Hadoop 用 户 下 执行 。 

(4) 若 操作 命令 权限 不 够 ,在 命令 前 加 sudo. 

(5) 安装 之 前 请 确保 集群 中 所 有 机 器 的 时 间 正 确 一 致 

2. ZooKeeper 安装 

1) 下 载 

从 官网 下 载 ZooKeeper 3. 4.8 ,务必 在 官网 查询 各 版 本 HBase 对 ZooKeeper 的 要 求 , 下 
载 合 适 的 ZooKeeper。 

2) 解压 

进入 压缩 包 所 在 的 文件 夹 解压 。 


tar - zxvf 压缩 包 名 -C /usr 


3) 配置 环境 变量 
(1) 打开 /etc/profile 配置 文件 。 


命令 : sudo vi /etc/profile 
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(2) 在 最 后 添加 内 容 , 如 下 。 


#zookeeper environment 
export ZOOKEEPER HOME-/usr/zookeeper-3.4.8 
export PATH-$PATH:$ZO0KEEPER HOME/bin 


(3) 刷新 配置 。 
命令 : source /etc/profile 


4) 修改 ZooKeeper 文件 夹 权限 
在 root 用 户 下 修改 ZooKeeper-3. 4. 8 的 权限 ,使 Hadoop JH P! Xf ZooKeeper-3. 4.8 文 
件 夹具 有 控制 权 。 


命令 : [root] chown - R hadoop:hadoop /usr/zookeeper - 3.4.8 


5) 新 建文 件 夹 
进入 /usr/zookeeper-3. 4. 8 并 新 建文 件 夹 。 


命令 : mkdir dataDir 


6) 配置 zoo. cfg 
(1) 配置 文件 在 /usr/zookeeper-3.4.8/conf 下 。 
(2) 重 命名 zoo_sample. cfg。 


命令 : mv zoo_sample.cfg zoo.cfg 


(3) 配置 如 下 。 


昌 The number of milliseconds of each tick 
tickTime-2000 
e number of ticks that the initial 
# synchronization phase can take 
initLimit-5 
THe numbér of ticks that can pass between 
# sending a request and getting an acknowledgement 
mit=: 

the directory where the snapshot is stored. 
4 do not use /tmp for storage, /tmp here is just 
# example sakes. 
dataDirz/usr/zookeeper-3.4 B/dataDir 

the port at which the clients will connect 
clientPort-2181 

the maximum number of client connections. 
# increase this if you need to handle more clients 
stmaxClientCnxns-60 


Be sure to read the maintenance section of the 
administrator guide before turning on autopurge. 


http://zookeeper apache .org/doc/current/zookeeperAdmin.html£sc maintenance 


LDIIIIII 


The number of snapshots to retain in dataDir 
stautopurge.snapRetainCount-3 

# Purge task interval in hours 

4 Set to "O" to disable auto purge feature 
stautopurge.purgeInterval-l 
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7) 配置 myid 

在 新 建 的 dataDir 文件 夹 下 ,新 建 名 为 myid 的 文件 ,输入 zoo. cfg 中 各 主机 对 应 的 编 
号 ,如 master 对 应 1,myid 中 输入 1 并 保存 。 

8) 复制 到 其 他 机 器 

(1) 将 安装 好 的 ZooKeeper 文件 夹 复制 到 其 他 机 器 。 


命令 : scp - /usr/zookeeper - 3. 4.8 slavel:/usr 
命令 : scp —r /usr/zookeeper - 3.4.8 slave2:/usr 


(2) 将 配置 好 的 profile 文件 复制 到 其 他 机 器 。 


命令 : scp /etc/profile slavel:/etc 
命令 : scp /etc/profile slave2:/etc 


(3) 用 SSH 登录 其 他 机 器 ,刷新 其 他 机 器 上 的 profile 配置 文件 。 

(4) 修改 slavel 和 slave2 的 ZooKeeper 文件 夹 权 限 。 

(5) 更 改 各 机 器 上 dataDir 中 myid 文件 中 的 值 ,slavel 为 2,slave2 为 3。 
9) 测试 

CD 启动 Hadoop( 也 可 以 只 启动 HDFS) 。 


命令 : start- dfs. sh 
(2) 启动 ZooKeeper。 


命令 : zkServer.sh start # JA ži zookeeper 
命令 : zkServer.sh stop 井 关闭 zookeeper 


(3) 用 SSH 登录 其 他 机 器 启动 ZooKeeper。 
jps 命令 查看 进程 ,如 下 所 示 则 正常 。 


[hadoop@master conf]$ zkServer.sh start 
ZooKeeper JMX enabled by default 
Using config: /usr/zookeeper-3.4.8/bin/../conf/zoo.cfg 


[hadoopémaster conf]$ jps 


8051 ehi 
lameNode 

7755 ResourceManager 

8075 Jps 


7581 SecondaryNameNode 
[hadoop@master conf]$ B 


(4) 查看 状态 (必须 要 在 所 有 节点 都 启动 后 再 执行 该 步骤 ), 如 下 所 示 则 配置 成 功 
(follower 和 leader 的 分 配 由 ZooKeeper 完成 ,不 是 固定 的 )。 


[hadoop@master ~]$ zkServer.sh status 

ZooKeeper JMX enabled by default 

Using config: /usr/zookeeper-3.4.8/bin/../conf/zoo.cfg 
Mode: „follower 

[hadoopümaster -]$ ssh slavel 

Last login: Mon Dec 26 22:19:15 2016 from master 
[hadoopüslavel -]$ zkServer.sh status 

ZooKeeper JMX enabled by default 

Using config: /usr/zookeeper-3.4.8/bin/../conf/zoo.cfg 
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ode leader 

[hadoopüslavel -]$ exit 

logout 

Connection to slavel closed. 

[hadoopGmaster -]$ ssh slave2 

Last login: Mon Dec 26 22:18:54 2016 from master 
[hadoopéslave2 -]$ zkServer.sh status 

ZooKeeper JMX enabled by default 

Using config: /usr/zookeeper-3.4.8/bin/../conf/zoo.cfg 


M 
EEE ~]$ exit 


logout 
Connection to slave2 closed. 
[hadoop@master -]$ || 


命令 : zkServer.sh status # 查 看 状态 


3. 安装 HBase 

1) 下 载 

从 官网 下 载 HBase 1. 2.4, 务 必 在 官网 查询 各 版 本 HBase 对 Hadoop 的 要 求 , 下 载 合适 
的 HBase。 

2) 解压 

进入 压缩 包 所 在 的 文件 夹 解压 。 


tar 一 zxvf 压缩 包 名 -C /usr 


3) 配置 环境 变量 
(1) 打开 /etc/profile 配置 文件 。 


命令 : sudo vi /etc/profile 


(2) 在 最 后 添加 内 容 , 如 下 。 
#hbase environment 


export HBASE HOME-/usr/hbase-1.2.4 
export PATH-$PATH:$HBASE HOME/bif 


(3) 刷新 配置 。 
命令 : source /etc/profile 


4) 修改 HBase 文件 夹 权 限 
在 root 用 户 下 修改 HBase-1. 2. 4 的 权限 ,使 Hadoop 用 户 对 HBase-1. 2. 4 文件 夹具 有 
控制 权 。 


命令 : [root] chown - R hadoop: hadoop /usr/hbase - 1.2.4 


5) 配置 hbase-env. sh 

(1) 下 面 的 配置 文件 都 在 /usr/hbase-1. 2. 4/conf 下 。 

(2) 因为 这 里 使 用 独立 的 ZooKeeper 而 不 是 HBase 默认 自 带 的 ,所 以 文档 中 的 
HBASE MANAGES ZK 为 false. 

(3) 配置 如 下 。 
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# Seconds to sleep between slave commands. Unset by default. This 
# can be useful in large clusters, where, e.g., slave rsyncs can 

# otherwise arrive faster than the master can service them. 

# export HBASE SLAVE SLEEP-9.1 


Tell HBase whether it should manage it's ow] instance of Zookeeper or not. 
port HBASE MANAGES ZK-false 





The default log rolling policy is RFA, where the log file is rolled as per the size defined for the 
RFA appender. Please refer to the log4j.properties file to see more details on this appender. 


* 


6) 配置 hbase-site. xml 
配置 如 下 ,其 中 的 dataDir 和 ZooKeeper 中 的 配置 项 保持 一 致 


<configuration> 
<property> 
<name>hbase.rootdir</name> 
«value»hdfs ://master:9008/hbase«/value» 
«/property» 
«property» 
«name»hbase .cluster.distributed«/name» 
<value>t rue</value> 
</property> 
<property> 
«name»hbase .master«/name» 
«value»master:60000«/value» 
</property> 
<property> 
<name>hbase . zookeeper.quorum«/name» 
«value»naster,slavel,slave2«/value» 
«/property» 
«property» 
«name»hbase .zookeeper.property .dataDi re/name» 
«value»/usr/zookeeper-3.4.8/dataDir«/value» 
«/property» 
E/configuration» 


7) 配置 RegionServers 
Bavel 


slave2 


8) 复制 到 其 他 机 器 
CD 将 安装 好 的 HBase 文件 夹 复制 到 其 他 机 器 。 


命令 : sudo scp — r /usr/hbase- 1.2.4 slavel:/usr 
命令 : sudo scp -r /usr/hbase - 1.2.4 slave2:/usr 


(2) 将 配置 好 的 profile 文件 复制 到 其 他 机 器 。 


命令 : scp /etc/profile slavel:/etc 

命令 : scp /etc/profile slave2:/etc 

(3) 用 SSH 登录 其 他 机 器 ,刷新 其 他 机 器 上 的 profile 配置 文件 。 
(4) 修改 slavel 和 slave2 的 HBase 文件 夹 权 限 。 

9) 测试 

(1) 启动 Hadoop 和 ZooKeeper。 

(2) 启动 HBase。 


命令 : start- hbase. sh # 启 动 
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命令 : stop- hbase. sh # 关 闭 
(3) jps 查看 进程 ,如 下 。 


conf]$ jps 
8913 Jps 
8651 QuorumPeerMain 
7364 NameNode 
7755 ResourceManager 
7581 SecondaryNameNode 


ESSE BS, EET 


Lula 71$ jps 
ps 


3255 QuorumPeerMain 
2984 DataNode 
3100 NodeManager 


hadoopGslavel ~]$ jps 
ataNode 


3352 QuorumPeerMain 
3196 NodeManager 
3901 Jps 


(4) 打开 master: 16010. n8] 11-44 所 示 则 安装 成 功 。 


€) 192.168.31.240 16010/master stat © [IQ Search 60.4 
Pearu 
MBASE w= w 





^ Loæailogs Loglevei  DebugDump MetricsDump  HBase Coni 





Master master 


Region Servers 


ServerName Start time Num. Regions 


slave1 ,16020,1492761896087 Mon Dec 28 22:18:16 CST 2016 


slave2,16020,1492761895845 Mon Dec 28 22:18:15 CST 2016 


Total:2 





E 11-44 打开 master:16010 


11.4 HBase 索引 与 检索 


11.4.1 二 次 索引 表 机 制 
HBase 表 的 RowKey 可 以 看 作 表 的 一 级 索引 。RowKey 按照 字母 或 数字 排序 ,我们 通 


过 RowKey 对 数据 进行 检索 。 在 实际 存储 时 , HBase 表 沿 着 行 方向 基于 列 族 划分 为 多 个 
Regions, 然 后 这 些 Regions 又 分 散 存 储 在 不 同 的 Region Server 上 ,如 图 11-45 所 示 。 当 我 
们 需要 访问 HBase 表 中 数据 时 ,HBase 只 提供 了 如 下 三 种 查询 方式 。 


(1) 基于 单个 RowKey 的 查询 。 
(2) 通过 一 个 RowKey 的 区 间 来 访问 。 
(3) 全 表 扫 描 。 


5) 大 数据 分 析 与 计算 


Table: Logical View Regions-Ptrysical Layout  RegionServer-ServingLayer 





| 











图 11-45 HBase 表 的 存储 模型 


HBase 这 种 基于 RowKey 的 单一 的 ,全 局 式 索引 方式 已 很 难 满足 应 用 程序 的 需求 。 对 
HBase 表 的 查询 多 数 情况 下 我 们 并 不 知道 RowKey, 常 常 针对 的 是 列 数据 的 查询 ,如 果 不 使 
用 RowKey 来 查询 就 会 使 用 filter 来 对 全 表 进 行 扫 描 , 查 询 速度 非常 慢 。 开 发 工程 师 希 望 
能 够 像 SQL 一 样 检索 数据 ,可 是 HBase 之 前 的 定位 是 大 表 存储 , 要 进行 这 样 的 查询 ,往往 
要 使 用 Hive,Pig 等 工具 进行 全 表 的 MapReduce 计算 ,这 种 方式 既 浪费 了 机 器 的 计算 资源 ， 
又 因 高 延迟 使 得 应 用 效果 难以 令 人 满意 。 这 就 引发 了 人 们 对 研发 HBase 二 级 索引 表 的 
兴趣 。 

以 图 11-46 为 例 。 图 中 左上 方 是 HBase 主 数据 表 , 它 包含 RowKey (RK1,RK2,RK3) 
和 两 个 列 (F:C1,F:C2, 属 于 同一 列 族 )。 我 们 的 问题 是 : 如 何 根 据 单元 C11( 红 色 格 ) 找 到 
单元 C21( 蓝 色 格 )? 也 即 , 按 SQL 语句 形式 ,查找 符合 条 件 *F:Cl = C11” 的 下 :C2 的 值 。 


Rowkcy Eci | F:c2 





























RKI 上 一 
RKI 上 一 | Cl2 | C2 查找 符合 F:C1=C11 的 F:C2 的 值 
RKI [7 | ci3 C23 





























Rowkcy F:CI F:C2 
[RKI | cu | cal 
RKI [—— 


1 ci2 | c2 
RKI [~ | C13 | C23 
































图 11-46 二 级 索引 表 工 作 机 制 
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由 于 不 知道 C11 所 对 应 的 RowKey f& ,我 们 只 有 进行 对 主 表 的 全 局 扫描 ,找到 F:Cl — C11 
的 单元 ,然后 确定 其 行 键 RowKey, 然 后 再 根据 RowKey 进行 数据 查询 ,找到 C21 所 在 
Region 位 置 , 读 取 C21 的 值 。 这 是 一 个 非常 耗 时 耗 力 的 低 效 过 程 。 

如 果 我 们 构建 了 一 个 二 级 索引 表 ( 图 中 右 表 ) ,索引 表 从 主 表 中 取出 F:C1 为 RowKey， 
而 以 主 表 的 行 键 (RK1, RK2, RK3) 为 列 ( 索 引 数 据 ) ,这样 ,针对 “查找 符合 条 件 F:C1 — 
C11 的 下 ;C2 的 值 ”这 样 的 查询 ,只 需 根据 C11 的 值 (RowKey) 在 二 级 索引 表 中 找到 对 应 的 
列 值 RK1( 索 引 表 中 两 个 红色 格子 ) ,然后 再 用 RK1 作为 RowKey 回 到 主 表 就 可 快速 定位 
C21( 图 中 左下 表 的 红色 格 和 蓝 色 格 ) 。 

上 面 的 例子 很 好 地 解释 了 HBase 二 级 索引 表 的 工作 机 制 ,其 关键 是 建立 主 表 列 到 
RowKey 的 逆向 映射 关系 。 由 于 索引 表 都 是 单列 , 表 的 大 小 比 起 主 数据 表 来 小 许多 ,因此 可 
以 大 大 加 快 检索 速度 。 其 目前 二 级 索引 表 的 实现 一 般 采 用 如 下 两 种 技术 。 

1. 表 索 引 

使 用 单独 的 HBase 表 存 储 二 级 索引 表 , 将 主 表 的 索引 列 值 作为 索引 表 的 RowKey ,而 
将 主 表 的 RowKey 作为 索引 表 的 列 Qualifier 或 Value, 即 建立 逆向 映射 关系 。 这 一 方案 的 
缺陷 是 : 数据 更 新 时 对 性 能 影响 较 大 ,无 法 保证 一 致 性 ,Client 查询 需要 两 次 远程 调用 RPC 
( 先 查 询 索 引 表 再 查询 数据 表 ) 。 

2. 列 索引 

与 主 表 使 用 相同 的 表 , 但 增加 一 个 单独 列 族 存储 索引 值 。 主 表 的 用 户 数据 列 值 作为 索 
引 列 族 的 Qualifier, 用 户 数据 Qualifier 作为 索引 列 族 的 列 值 。 这 一 方案 适用 于 单行 有 上 百 
万 Qualifier 的 数据 模型 ,如 网 盘 应 用 中 网 盘 ID 作为 RowKey, 网 盘 的 目录 元 数据 都 存储 在 
一 个 HBase Row 内 (Facebook 消息 模型 就 是 此 方案 )。 这 一 方案 使 得 主 表 和 索引 表 位 置 在 
同一 Region Server 上 ,可 保证 事务 性 。 

目前 HBase 二 级 索引 表 的 解决 方案 仍 是 一 个 研究 中 的 课题 。 在 HBase 中 实现 二 级 索 
引 查 询 需 要 考虑 以 下 三 个 因素 。 

(1) 高 性 能 的 范围 检索 。 

(2) 数据 的 低 元 余 。 

(3) 数据 的 一 致 性 。 

查询 性 能 与 数据 宛 余 .一致 性 是 相互 制约 的 关系 。 如 果实 现 了 高 性 能 的 范围 检索 ,必然 
需要 靠 索引 数据 宛 余 来 提升 性 能 ,而 数据 宛 余 会 导致 更 新 数据 时 实现 一 致 性 更 困难 ,尤其 是 
在 分 布 式 场景 下 。 


11.4.2 二 次 索引 技术 方案 


目前 HBase 二 级 索引 表 的 构建 与 实现 有 HBase 提供 的 Coprocessor, IHBase 方案 ,有 
第 三 方 在 HBase 代码 之 上 提供 的 Solr, Phoenix, EW HY Hindex 等 解决 方案 ,下 面 对 它 们 进 
行 介绍 。 

1. HBase 的 Coprocessor 方案 

HBase 在 0. 92 版 本 之 后 引入 了 协 处 理 器 Coprocessor 来 提供 二 次 索引 机 制 。 
Coprocessor 的 设计 目前 有 两 种 类 型 : Observer 十 hook 类 型 和 Endpoint 类 型 。 


E 大 数据 分 析 与 计算 





Observer 十 hook( 钩 子 ) 类 型 实际 是 采用 了 触发 器 模式 ,以 HBase 0. 92 版 本 为 例 , 它 提 
供 了 以 下 三 种 触发 器 接口 。 

(D RegionObserver: 提供 客户 端的 数据 操作 事件 钩子 : Get, Put, Delete, Scan, 

(2) WALObserver: 提供 WAL 相关 操作 钩子 。 

(3) MasterObserver: 提供 DDL 类 型 的 操作 和 钧 子 ,如 创建 .删除 ,修改 数据 表 等 。 

基本 上 对 于 HBase 表 的 管理 ,数据 的 Get、Put、Delete、Scan 等 操作 都 可 以 找到 对 应 的 
hook。 这 样 , 当 需 要 对 于 HBase 数据 表 的 Column 建立 二 次 索引 时 ,就 可 以 在 Put, Delete 
操作 时 ,将 相关 信息 即时 同步 到 一 个 独立 的 索引 表 中 ,如 图 11-47 所 示 。 图 中 , Put, 
Delete 操作 完成 对 主 数据 表 (Main Table) 的 操作 时 ,其 数据 的 更 新 立即 被 同步 到 一 个 单独 
的 二 次 索引 表 (Indexing Table) 。 


Observer: 
pre 


Main Table 


I I 
1 1 
] I 
] | Rowkey |CFI CF2 
! Put/Delete | sb 00000001 em:xxxx — dk;aaaa 
E 00000002  emyyyy  dy:bbbb 
I I 
1 
I 1 
1 
I 


Indexing Table 
eame 
CFlem00000001 — xxxx 
CFlen00000002 — yyyy 
CF2dk00000001 ^ aaaa 
CF2dy00000002 — bbbb 






图 11-47 Coprocessor 工作 机 制 


图 11-48 描述 了 RegionObserver 的 工作 流程 ,应 注意 到 当 HRegionServer 对 HRegion 
进行 get() 操 作 时 , HRegion 随即 启动 了 coprocessorHost 的 preGet() 操 作 , 然 后 启动 了 
RegionObserver 的 preGet ( ) Jj ik; 当 HRegion 的 get() 操 作 结 束 时 , 它 又 调用 了 
coprocessorHost 的 postGet() ,后 者 启动 了 RegionObserver 的 postGet() 方 法 ,对 二 次 索引 
表 进 行 了 同步 更 新 。 

需要 注意 到 HRegion 将 Get 操作 结果 返回 是 在 RegionObserver 的 postGet 操作 循环 
结束 后 ,这 就 意味 着 Observer 维护 单独 的 索引 表 的 机 制 增 大 了 HBase 表 操 作 的 时 延 ,这 是 
Observer 模式 的 一 个 缺陷 。 

Coprocessor 的 Endpoint 模式 把 更 新 二 次 索引 表 的 操作 写成 了 类 似 于 数据 库 stored 
procedure 的 形式 并 安装 在 远程 的 Region 上 ,让 HBase 客户 端 在 需要 时 调用 。 这 些 函 数 实 
际 上 是 以 动态 RPC 接口 形式 实现 ,客户 端 提 供 了 非常 方便 的 方法 来 同时 远程 调用 分 布 在 多 
个 Region 上 的 RPC, 它 们 的 实现 代码 会 被 目标 Region 远程 执行 ,结果 会 返回 给 客户 端 。 
Endpoint 的 工作 机 制 示意 图 见 图 11-49。 

Coprocessor 的 优点 是 非 侵入 性 ,引擎 构建 在 HBase 上 ,没有 对 HBase 进行 任何 改动 ; 
缺点 是 每 插入 一 条 数据 需要 向 索引 表 插 入 索引 数据 , 耗 时 是 双 倍 的 。 

2. IHBase( Index HBase) 方 案 


这 也 是 业界 已 经 实现 的 一 种 二 级 索引 表 , 在 Github 上 开源 "9 。 该 项 目 基 于 Hadoop 
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client:Client | tableA: ES rs: = region: =- cpHost: — | ro: — 


[ laettnew Get() 上 














postGet(Get, result) || 




















Region Server 1 


execCoprocessor() 





Region Server 2 


图 11-49 Endpoint 工作 机 制 


0. 20. 2, HBase 0. 20. 5 和 JDK 1.6, 其 核心 思想 是 : 当 MemStrore 满足 缓冲 刷 写 到 磁盘 条 
件 时 ,IHBase 会 拦截 请 求 并 为 这 个 MemStrore 的 数据 结构 建 索引 ,索引 数据 存放 于 表 的 另 
一 个 列 。 但 对 于 HBase 这 种 分 布 式 数据 库 来 说 ,最 大 的 问题 是 解决 数据 表 和 索引 表 的 本 地 
性 问题 , 即 数据 表 和 索引 表 需 要 存放 在 同一 节点 。 以 如 图 11-50(a) 所 示 的 数据 表 和 索引 表 
为 例 ,如 果 按 照 全 表 构 建 索引 表 , 很 容易 因为 负载 均衡 考虑 ,把 表 进 行 分 拆 , 结 果 导 致 索引 表 
和 被 索引 的 数据 表 数 据 分 布 到 了 不 同 的 Region Server 上 ,如 图 11-50(b) 所 示 。 

为 了 解决 这 个 问题 ,IHBase 提出 了 在 Region 级 别 而 不 是 表 级 别 建立 索引 的 思路 , 即 在 
每 个 Region 上 建立 索引 表 。 其 具体 做 法 是 用 IdxRegion 代替 了 常规 的 Region 实现 ,在 
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Flush 的 时 候 为 Region 建立 索引 。 这 一 方案 会 较 多 地 占用 内 存 , 而 且 当 索引 表 分 布 到 多 个 
Region 时 ,数据 一 致 性 也 会 是 个 问题 。 
































































































































RowKey fc 
RowKey| fic A003 56 
w A06 一 一 | A004 21 
21 A A006 10 
56 A003 
(a) 数据 表 和 索引 表 
RowKey| fc RowKey fc 
10 A006 A003 56 
21 A004 
RowKey| f:c RowKey | fic 
56 A003 A004 21 
A006 10 














(b) 索引 表 与 数据 表 被 拆 分 到 不 同 Region Server 
图 11-50 ”索引 表 与 数据 表 的 部 署 


3. HBase+Solr 方案 


Solr f& — AREE RH Java 5 开发 .基于 Lucene 的 全 文 搜索 服务 器 。Solr 同时 对 
Lucene 进行 了 扩展 ,提供 了 更 为 丰富 的 查询 语言 ,实现 了 可 配置 .可 扩展 ,并 对 查询 性 能 进 
行 了 优化 ,提供 了 一 个 完善 的 功能 管理 界面 ,是 一 款 非常 优秀 的 全 文 搜索 引擎 。Solr 可 以 与 
HBase 配合 构建 索引 库 , 为 HBase 查询 提供 索引 服务 。HBase 十 Solr 集群 架构 见 图 11-51。 

HBase 十 Solr 解决 方案 的 基本 思路 是 在 Solr 集群 上 构建 一 个 独立 于 HBase 集群 的 全 
表 索 引 库 ,HBase 的 每 一 次 写 数据 操作 都 会 触发 Solr 索引 库 的 同步 更 新 ; 而 当 HBase 进行 
读数 据 操作 时 ,HBase 客户 端 首 先 查 询 Solr 索引 库 ,获得 需要 读 取 数据 的 RowKey, 然 后 再 
直接 去 HBase 集群 完成 数据 读 取 。 

HBase 十 Solr 架构 读 写 数据 的 具体 流程 步骤 如 下 。 

(OD 写 数据 : 

wdl :客户 端 发 出 写 数据 请 求 。 

wd2: HBase 启动 写 数据 操作 。 

wd3: Solr 完成 对 应 的 索引 条 目 构建 。 
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图 11-51 HBase 十 Solr 集群 架构 


(2) 读数 据 : 

rdl; 客户 端 发 出 读数 据 请 求 。 

rd2: 客户 端 从 Solr 索引 库 读 出 对 应 的 RowKey。 

rd3: 客户 端 使 用 RowKey 直接 从 HBase 读 取 需要 的 数据 。 
4. Phoenix 二 次 索引 方案 


Phoenix 原来 是 Salesforce. com 的 一 个 开源 项 目 , 后 来 变 成 了 Apache 开源 项 目 c9 。 
Phoenix 相当 于 一 个 Java 中 间 层 ,帮助 开发 者 像 使 用 JDBC 访问 关系 型 数据 库 一 样 访问 
HBase 数据 库 。Phoenix 完全 使 用 Java 编写 ,让 开发 者 在 HBase 上 执行 SQL 查询 ， 
Phoenix 查询 引擎 会 将 SQL 查询 转换 为 一 个 或 多 个 HBase 扫描 ,并 直接 调用 HBase API、 
协同 处 理 器 与 自 定义 过 滤器 来 执行 。 对 于 简单 查询 来 说 ,Phoenix 的 性 能 是 毫秒 级 ,对 于 百 
万 级 别 行 数 来 说 ,其 性 能 是 秒 级 。 

Phoenix 的 技术 架构 见 图 11-52。Phoenix 不 同 于 HBase Coprocessor 之 处 在 于 ， 
Phoenix 采用 了 获 盖 索引 (Cover Index) 设 计 , 把 索引 项 和 感 兴趣 的 数据 项 放 在 同一 索引 表 
中 ,一 旦 在 索引 表 中 找到 索引 项 ,也 就 找到 了 访问 数据 ,与 Coprocessor 相 比 减少 了 一 次 读 表 时 
间 。Phoenix 提供 全 局 索引 (Global Indexing) 和 局 部 索引 (Local Indexing) 两 种 索引 模式 。 

全 局 索引 (Global Indexing) 是 针对 HBase 主 数据 表 全 表 建 立 一 个 独立 的 二 级 索引 表 ， 
基于 覆盖 索引 (Cover Index) 设 计 , 这 个 索引 表 不 光 包 含 主 数据 表 的 RowKey, 还 存储 了 客 
户 端 感 兴趣 的 数据 列 ( 可 以 多 列 )。 因 此 在 读数 据 操作 时 ,Phoenix 会 首先 选择 读 索引 表 , 这 
样 的 查询 时 间 会 最 优 。 但 在 对 数据 表 的 更 新 操作 时 ,会 引起 索引 表 的 更 新 ,而 索引 表 是 分 布 
在 不 同 的 数据 节点 上 的 , 跨 节点 的 数据 传输 带 来 了 很 大 的 开销 ,导致 性 能 下 降 。 所 以 全 局 索 
引 更 适合 于 读 多 写 少 的 场景 。 

局 部 索引 (Local Indexing) 是 将 索引 表 数 据 和 数据 表 的 数据 存放 在 相同 的 服务 器 上 ,避免 
了 写 数据 操作 时 往返 不 更 新 同 服务 器 的 索引 表 带 来 的 额外 操作 开销 ,这 对 提升 写 数据 性 能 非 
常 有 利 。 但 需要 注意 的 是 ,在 读数 据 时 ,由 于 存放 需要 的 索引 表 的 Region 位 置 不 能 预知 ,所 有 
的 Region 都 会 被 访问 到 ,这 导致 读数 据 性 能 不 理想 。 局 部 索引 更 适合 于 写 多 读 少 的 场景 。 
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图 11-52 Phoenix 的 技术 架构 


5. 华为 的 Hindex 方案 


华为 的 Hindex? f&—4- 100% Java, 5j HBase 0. 94. 8 版 匹配 在 ASL 协议 下 开源 的 
服务 器 端的 二 次 索引 解决 方案 ,其 核心 思想 是 保证 索引 表 和 主 数据 表 在 同一 个 Region 
Server 上 。Hindex 系统 架构 如 图 11-53 所 示 , 它 包括 : 基于 HBase Client 接口 的 客户 端 设 
置 索 引 要 求 ; 使 用 HBase 集群 的 Master 节点 作为 Balancer 收集 集群 信息 ; 使 用 HBase 的 
Coprocessor 管理 维护 索引 表 。 






Client App 


| 















































Rowkey cfixoll Rowkey | dumeny cf 
901 A 901 A 001 
002 B 901 A 005 
003 z 901 A 006 
004 C 901 B 002 
008 A 001. C 004. 
006 A 001-7003 
Primary User Table Secondary Index Table 


图 11-53 Hindex 系统 架构 
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Hindex 的 索引 设计 具有 如 下 特点 。 

CD 针对 每 一 个 Region 上 的 数据 表 构 建 索 引 表 ,而 且 确 保 索 引 表 与 数据 表 在 同一 个 
Region E. 

(2) 多 个 表 索 引 。 

(3) 多 个 列 索 引 。 

(4) 基于 部 分 列 值 的 索引 。 

(5) 全 部 代码 实现 在 服务 器 端 ,不 需要 客户 端 两 次 操作 。 

(6) 需要 对 HBase 源 代码 改造 ,侵入 性 大 。 

Hindex 实现 数据 操作 如 下 。 

D 表 创建 

在 一 个 Region 上 创建 数据 表 时 ,在 同一 个 Region Server 上 创建 索引 表 , 且 一 一 对 应 
(图 11-54 的 Actual table 和 它 对 应 的 Index table) 。 


Actual table 









Create table 
With regions 





£ 
口 四 四 > 


Index table 


图 11-54 [5— Region Server 上 的 数据 表 和 索引 表 


2) 插入 操作 

在 主 表 中 插入 一 条 数据 后 ,用 Coprocessor 将 相应 的 索引 信息 列 写 到 索引 表 中 去 。 索 
引 表 名 字 为 : 数据 表 名 字 加 后 级 ”idx”, 即 数据 表 名 字 _idx; 索引 表 中 的 主键 构造 方式 为 : 
Region 开始 Key 十 索引 名 十 索引 列 值 十 主 表 RowKey。 这 么 做 是 为 了 让 其 在 同一 个 分 布 规 
则 下 ,查询 的 时 候 就 可 以 少 一 次 RPC。 

以 图 11-55 为 例 ,数据 表 名 字 为 "tab1”, 数 据 表 搬 和 的 数据 项 值 如 表 11-5 所 示 。 

表 11-5 插入 的 数据 项 
列 族 cfi 


行 键 RowKey 


列 ef:el 








根据 图 11-55 ,数据 表 和 对 应 的 索引 表 起 始 键 值 均 为 aa。 按照 上 述 法 则 ,数据 表 在 进行 
如 下 操作 后 : 


Put ‘abl abd vcElsc SCE SEC2 ZE 


Coprocessor 会 执行 相应 的 操作 ,把 索引 数据 加 入 索引 表 。 按 照 规则 ,索引 表 名 字 为 tabl_idx， 
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而 索引 表 行 键 按 如 下 方式 形成 。 
索引 表 RowKeyl = Region 开始 Key 十 索引 名 1 十 索引 列 值 1 十 主 表 RowKey 
= aa + idxl + 5 + abd = aaidxl5abd 
索引 表 RowKey2 = Region 开始 Key 十 索引 名 2 十 索引 列 值 2+ EK RowKey 
= aa + idx2 + Zl + abd = aaidx2Zlabd 
因此 ,Coprocessor 对 索引 表 tabl_idx 的 相应 操作 为 插入 两 条 索引 数据 : 


Put 'tabl idx', 'aaidxl5abd ' 
Put 'tabl idx', 'aaidx2Zlabd ' 











Region Server 









































J aa 9a 
Client Loos p RI R2 
ut 'tabl', User Table Index Table| 
'adb' ad sd 
'eflcl''s! x 
'cflic2/ ZI Coprocessor 








Put'tabl. idx', 'aaidxl5abd' 
Put'tabl idx', 'aaidx2Z labd" 


图 11-55 Hindex 的 插入 操作 


3) 扫描 操作 
当 一 个 数据 表 扫 描 查 询 启动 时 ,Coprocessor 先 在 索引 表 上 生成 一 个 scanner, 先 从 索引 


表 中 搜索 符合 查询 范围 的 RowKey, 然 后 再 使 用 这 些 从 索引 表 中 扫描 出 的 RowKey 去 主 表 
中 获得 最 终 数据 ,如 图 11-56 所 示 。 





Region Server 












Client 
Create scanner 


Condition c1-5 RI 


User Table| 












ad ad 


Coprocessor 














Create scanner on index 
Start row-aaidx15 
Stop row-aaidx16 


(a) 生成 scanner 





Region Server 








aa 








i aa 
Client P | RI R2 


nextÓ 
User Table| Index Table] 


ad 
X | Coprocessor 











ad 























Seek to exact row next0 
(b) 用 索引 表 得 到 的 Rowkey 扫 描 数据 表 
图 11-56 Hindex 的 扫描 操作 
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4) 表 拆 分 操作 


为 了 保证 数据 表 和 索引 表 在 同一 个 Region Server 上 ,需要 禁止 索引 表 的 自动 和 手动 
Split 功能 ,而 只 能 由 数据 表 在 Split 的 时 候 触发 。 当 数据 表 Split 时 ,对 索引 表 则 按 其 对 应 
的 数据 进行 划分 。 同 时 ,对 索引 表 的 第 二 个 拆 分 而 成 的 子 表 , 其 RowKey 前 级 采用 对 应 的 
数据 表 的 RowKey。 

以 图 11-57 为 例 ,数据 表 从 RowKey —005 行 发 生 Split, 拆 分 成 两 个 子 表 , 一 个 子 表 起 
始 键 值 为 00, 另 一 个 子 表 起 始 键 值 为 05 。 两 个 子 表 的 行 数 一 个 为 4(RowKey:001 ~ 004), 
另 一 个 为 3(RowKey:005 ~ 007) 。 









































































































































00 [RowKey[  cfi:coll 00 [RowKey en 
001 A 001 A 001 
002 A 001 A 002 
Split at 003 c 001 A 007 
this point 004 B 001 B 004 
NN x 001 B 006 
006 B 001 C 003 
o9 L007 A o9 | 001 X 005 
User Table Region Secondary Index Table Region 
Ü 00 RowKey cfl 
001 A 001 
00 [RowKey|  cfl:coll 001 A 002 
001 A 
002 n 一 一 001 B 004 
003 C 
os [ 004 B 001 C 003 
05 
55 RowKey|  cfl:coll 0s RowKey cfl 
005. X | | 
006 B | [LLL] 
09 L007 ^ 005.007 | | 
005 B 006 
09 005 X 005 











图 11-57 Hindex 的 拆 分 操作 


数据 表 的 Split 也 引起 了 索引 表 的 拆 分 , 拆 分 而 成 的 两 个 子 表 的 起 始 键 值 同样 分 别 为 
00 和 05, 但 注意 两 个 索引 表 子 表 仍 保持 为 7 行 ,每 个 子 表 仍 包含 拆 分 前 对 应 数据 的 索引 信 
息 , 缺 项 部 分 则 为 空白 。 另 外 ,第 二 个 索引 表 子 表 的 RowKey 是 以 “005” 作 前 级 ,因为 此 时 
该 子 表 的 起 始 键 值 不 再 是 001 ,而 是 005 。 
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11.5 资源 管理 与 作业 调度 


部 署 在 各 自 相 对 独立 的 大 规模 集群 计算 节点 上 的 Hadoop 系统 是 一 个 典型 的 分 布 式 计 
算 系 统 。 分 布 式 系统 带 来 的 一 个 显著 好 处 是 计算 任务 的 并 行 处 理 和 不 同 计算 节点 的 计算 资 
源 共 享 ,这 将 大 大 提高 计算 处 理 速 度 、 系 统 知 吐 率 和 系统 可 用 性 。 但 对 于 多 节点 ,多 任务 、 并 
行 计算 的 分 布 式 系统 而 言 ,其 工作 机 制 必须 解决 如 下 问题 。 

CD 不 同 节点 ,不 同 计算 任务 之 间 的 协同 管理 。 

(2) 分 布 式 作业 的 调度 和 执行 机 制 。 

(3) 分 布 式 系统 中 的 资源 或 数据 共享 协调 方法 。 

在 Hadoop 生态 系统 中 ,上 述 功 能 和 机 制 是 通过 几 个 独立 的 组 件 ( 都 是 Apache 开源 
项 目 ) 来 实现 的 : ZooKeeper2 提 供 分 布 式 协同 服务 .Oozie52 提供 作业 调度 和 工作 流 
执行 .YARNC 提供 集群 资源 管理 服务 ,它们 在 Hadoop 计算 体系 中 的 位 置 如 图 11-58 
Bim. 


Ambari 
(安装 部 署 工 具 ) 





( 作 
MapReduce Tez Sprak b 
SR | (DAG 计 算 ) | (内 存 计算 ) 
YARN 
(分 布 式 计算 框架 ) 
HDFS 
(分 布 式 存储 系统 ) 


图 11-58 Hadoop 系统 中 的 ZooKeeper .Oozie 和 YARN 







ZooKeeper 
(分 布 式 协调 服务 ) 





11.5.1 分 布 式 协同 管理 组 件 ZooKeeper 


ZooKeeper 是 一 个 开源 的 分 布 式 系统 协调 服务 程序 , 它 基于 Fast Paxos 算法 [外 提供 分 
布 式 系统 的 协同 管理 .配置 维护 和 命名 服务 等 功能 。ZooKeeper 将 不 同 的 协调 服务 集成 在 
一 个 简单 易 用 的 界面 上 ,具有 分 布 性 和 高 效 可 靠 的 特点 。 具 体 而 言 ,ZooKeeper 提供 如 下 
服务 。 

(1) 统一 命名 服务 ; 

(2) 应 用 配置 管理 ; 

(3) 分 布 式 锁 服务 ; 

(4) 分 布 式 消息 队列 。 

ZooKeeper 采用 主 -从 架构 (Master/Slave) ,其 分 布 式 协同 服务 架构 如 图 11-59 所 示 。 
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图 11-59 ZooKeeper 的 协同 服务 架构 


ZooKeeper 服务 由 一 组 Server 节点 组 成 ,每 个 节点 上 都 运行 一 个 ZooKeeper 程序 。 通 
常 ZooKeeper 由 2n--1 f$ Servers 组 成 ,Server 之 间 有 通信 机 制 , 每 个 Server 都 维护 自身 的 
内 存 状态 镜像 .持久 化 存储 的 事务 日 志和 快照 。 为 了 保证 Leader 选举 能 够 得 到 多 数 的 支 
持 , 所 以 ZooKeeper 集群 的 数量 一 般 为 奇数 。ZooKeeper 集群 节点 中 存在 一 个 角色 为 
Leader 的 节点 ,其 他 节点 都 为 Learner(Learner 又 分 为 Follower 和 Observer) 。 对 于 224-1 
台 Server 集群 ,只 要 有 ?十 1 台 ( 多 数 )Server 可 用 ,整个 系统 即 保持 可 用 性 。 

节点 角色 定义 如 下 。 

Leader: 负责 进行 投票 的 发 起 和 决议 ,更 新 系统 状态 ,管理 系统 元 数据 。 

Follower: 用 于 接收 客户 端 服务 请 求 并 向 客户 端 返回 结果 ,在 选举 Leader 过 程 中 参与 
投票 。 

Observer: 可 以 接收 客户 端 请 求 并 将 写 数据 请 求 转发 给 Leader, 但 Observer 不 参加 投 
票 过 程 , 只 同步 Leader 的 状态 数据 。Observer 的 目的 是 为 了 扩展 系统 ,提高 读 取 速 度 。 

当 Leader 节点 发 生 故 障 失效 时 , ZooKeeper 会 做 出 快速 响应 ,消息 层 负责 基于 Fast 
Paxos 算法 重新 推举 一 个 Leader, 继 续 作 为 协调 服务 中 心 处 理 客户 端的 写 数据 请 求 , 并 将 
ZooKeeper 协同 数据 的 变更 同步 (广播 方式 ) 到 其 他 的 Follower 节点 。 

当 客 户 端 Client 连接 到 Follower 发 出 写 数据 请 求 时 ,这 些 请 求 会 被 发 送 到 Leader 节 
点 ,由 Leader 完成 元 数据 更 新 ,然后 Leader 上 的 数据 会 同步 更 新 到 其 他 Follower 节点 。 
ZooKeeper 使 用 了 一 种 自 定 义 的 原子 消息 协议 ,保证 了 整个 系统 中 的 节点 数据 或 节点 状态 
的 一 致 性 。Follower 节点 通过 这 种 消息 协议 保证 本 地 ZooKeeper 数据 与 Leader 节点 同步 ， 
然后 基于 本 地 的 存储 系统 来 独立 地 对 Client 提供 服务 。 

ZooKeeper 使 用 共享 存储 模型 和 类 似 于 文件 系统 的 层级 树 状 结构 来 实现 各 种 分 布 式 协 
同 服务 ,如 图 11-60 所 示 。ZooKeeper 采用 的 数据 结构 具有 如 下 特点 。 

CD 每 个 目录 节点 被 称 为 znode, 被 它 所 在 的 路 径 唯 一 标识 ,如 Serverl 这 个 znode 的 标 
识 为 /NameService/Serverl; znode 的 目录 节点 可 以 自动 编号 ,如 Appl 已 经 存在 ,如 在 
/Apps 下 创建 新 znode 的 话 , 将 会 自动 命名 为 App2。 

(2) znode 可 以 有 子 节点 目录 , 且 每 个 znode 可 以 存储 数据 ; znode 存储 的 数据 可 以 有 
多 个 版 本 ,也 就 是 一 个 访问 路 径 中 可 以 存储 多 份 数据 。 

(3) ZooKeeper 支持 两 种 节点 : 永久 节点 和 临时 节点 ,在 创立 节点 时 确定 。 临 时 节点 的 
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生命 周期 依赖 于 与 Client 的 连接 Session ,一 旦 创建 临时 节点 的 Client 与 ZooKeeper 的 连接 失 
效 , 这 个 临时 节点 即 自动 删除 。 而 永久 节点 只 有 当 Client 发 出 明确 的 删除 请 求 时 才 会 删除 。 

(4) znode 可 以 被 监控 ,在 这 个 目录 节点 中 存储 的 数据 修改 、 子 节点 目录 变化 时 ,可 以 通 
知 设置 观察 的 Client, 这 个 是 ZooKeeper 的 核心 功能 ,ZooKeeper 的 很 多 功能 都 是 基于 这 个 
特性 实现 的 。 
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图 11-60 ”ZooKeeper 的 分 层 树 状 数据 结构 


ZooKeeper 的 设计 保证 了 如 下 功能 特性 和 性 能 指标 的 实现 。 

CD 最 终 一 致 性 : Client 不 论 连接 到 哪个 Server, 展 示 给 它 的 都 是 同一 个 视图 。 

(2) 可 靠 性 : 具有 简单 .健壮 、 良 好 的 性 能 ,如 果 消 息 m 被 一 台 服务 器 接收 ,那么 它 将 被 
所 有 的 服务 器 接收 。 

(3) 实时 性 : ZooKeeper 保证 客户 端 将 在 一 个 时 间 间 隔 范围 内 获得 服务 器 的 更 新 信息 ， 
或 者 服务 器 失效 的 信息 。 但 由 于 网 络 延 迟 等 原因 ,ZooKeeper 不 能 保证 两 个 客户 端 能 同时 
得 到 刚 更 新 的 数据 ,如 果 需 要 最 新 数据 ,应 该 在 读数 据 之 前 调用 sync() 接 口 。 

(4) 操作 原子 性 : 更 新 只 能 成 功 或 者 失败 ,没有 中 间 状 态 。 

(5) 全 局 有 序 性 : 指 如 果 在 一 台 服 务 器 上 消息 a 在 消息 b 之 前 发 布 , 则 在 所 有 Server 
上 消息 a 都 将 在 消息 b 前 被 收 到 。 
































1. 统一 命名 服务 
分 布 式 系统 需要 有 一 套 统一 的 命名 规则 来 进行 不 同 节点 的 识别 和 资源 共享 。 命 名 服务 
就 是 提供 系统 成 员 统一 名 称 的 服务 ,ZooKeeper 的 命名 服务 有 两 个 方面 : 一 是 提供 类 似 


JNDI 那样 的 功能 , 即 把 各 种 服务 名 称 、 地 址 ,及 目录 信息 存放 在 分 层 结构 中 供需 要 时 读 取 ; 
二 是 提供 一 个 分 布 式 序列 号 生成 器 ,利用 ZooKeeper 顺序 节点 的 特性 ,生成 有 顺序 的 易 理 
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解 的 分 布 式 环境 中 的 序列 编号 。 


ZooKeeper 的 命名 服务 流程 如 图 11-61 所 示 ,连接 ZooKeeper 的 client 1 向 ZooKeeper 
服务 器 发 出 create() 请 求 ,ZooKeeper 服务 器 在 /ID 目录 下 生成 element_1 节点 后 ,client_1 
通过 get() 调 用 将 顺序 号 取 回 。 然 后 client_2 也 向 ZooKeeper 服务 器 发 出 create() 请 求 ， 
ZooKeeper 在 /ID 目录 下 按 顺序 生成 element_2 节点 并 返回 给 client_2, 以 此 类 推 。 这 里 ， 
ZooKeeper 生成 的 文件 命名 及 序列 号 都 是 全 系统 可 见 , 且 是 统一 编号 的 。 





图 11-61 ZooKeeper 的 命名 服务 流程 


2. 配置 管理 服务 

配置 管理 和 集群 成 员 管理 是 分 布 式 环境 中 常见 的 服务 。 比 如 同一 个 应 用 软件 同时 部 署 
到 多 台 Server 运行 ,但 是 各 台 Server 运行 的 应 用 软件 的 某 些 配置 项 是 相同 的 ,如 果 要 修改 
这 些 的 配置 项 ,那么 就 必须 同时 修改 每 台 Server 相关 的 配置 文件 。 设 想 一 下 上 千 台 机 器 的 
大 集群 ,频繁 修改 配置 文件 ,这 是 一 件 非常 麻烦 且 容 易 出 错 的 工作 。 另 外 ,管理 节点 还 需 监 
控 并 维护 集群 中 其 他 节点 的 状态 信息 ,如 果 管 理 节点 采用 心跳 方法 去 周期 查询 其 他 节点 的 
工作 状态 ,也 会 有 大 量 的 网 络 数据 产生 。 

对 于 系统 配置 的 管理 和 更 新 ,ZooKeeper 采用 发 布 (Publish) 和 监听 (Watch) 模 式 提供 
配置 文件 的 集中 管理 及 远程 自动 化 同步 更 新 。ZooKeeper 将 集群 节点 配置 信息 保存 在 某 个 
目录 节点 中 ,然后 让 所 有 需要 获得 配置 修改 信息 的 Client 节点 都 监听 (Watch) 配 置信 息 状 
态 , 一 旦 配置 信息 发 生变 化 ,每 台 Client 机 器 就 会 收 到 ZooKeeper 的 通知 ,然后 从 
ZooKeeper 获取 新 的 配置 信息 同步 更 新 到 本 地 系统 (如 图 11-62 所 示 )。 当 集群 中 某 些 节点 
的 系统 信息 发 生变 化 时 , 它 可 以 主动 推送 给 ZooKeeper, 而 ZooKeeper 会 通知 那些 对 该 信息 
感 兴趣 的 节点 ( 需 预先 在 ZooKeeper 处 预订 ) ,让 它们 去 ZooKeeper 处 获得 更 新 数据 ,这 即 
是 Publish 模式 。 

对 于 集群 成 员 管理 ,传统 方式 是 通过 ping 某 个 机 器 来 检查 其 在 线 状 态 。 但 ZooKeeper 
采用 了 更 有 效 的 方式 ,让 所 有 被 监测 的 机 器 都 在 ZooKeeper 上 注册 一 个 临时 节点 ,判断 一 
个 机 器 是 否 可 用 或 其 上 线 、 下 线 状态 ,只 需要 判断 这 个 节点 在 ZooKeeper 文件 目录 中 是 否 
存在 就 可 以 ,而 无 须 频繁 去 连 机 ,降低 了 网 络 传输 和 系统 复杂 度 。 

3. 分 布 锁 的 实现 

分 布 式 锁 提 供 了 ZooKeeper 保证 数据 一 致 性 的 机 制 。 一 致 性 是 指 每 时 每 刻 ZooKeeper 
集群 中 任意 节点 上 的 znode 的 数据 是 相同 的 ,不 管 从 哪 一 个 ZooKeeper Server 读 取 。 分 布 
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图 11-62 ZooKeeper 的 配置 管理 机 制 


式 锁 服 务 分 为 两 类 : 独占 锁 和 控制 时 序 锁 。 

独占 锁 就 是 所 有 试图 获取 这 个 锁 的 客户 端 最 终 只 有 一 个 成 功 获得 这 把 锁 。 通 常 的 做 法 
是 把 ZooKeeper 上 的 一 个 znode(/distribute_lock) 看 作 一 把 锁 , 通 过 create znode 的 方式 来 
实现 。 所 有 客户 端 都 去 尝试 创建 /distribute_lock 节点 ,最终 成 功 的 那个 客户 端 也 即 拥有 了 
这 把 锁 。 

控制 时 序 锁 就 是 所 有 试图 来 获取 这 个 锁 的 客户 端 ,最 终 都 会 被 安排 执行 ,只 是 需要 有 一 
个 全 局 排序 。 做 法 和 上 面 基本 类 似 , 只 是 这 里 的 /distribute_lock 已 预先 存在 ,排队 的 客户 
端 在 它 下 面 依次 创建 临时 节点 ,而 ZooKeeper 则 保持 一 份 顺序 表 , 保 证 创建 的 子 节点 的 时 
序 性 ,从 而 也 形成 了 每 个 客户 端的 全 局 时 序 。 

如 上 所 述 , 独 占 锁 和 控制 时 序 锁 都 需要 实现 锁 的 取得 和 释放 操作 ,这 在 同一 个 进程 中 很 
容易 实现 ,但 是 在 跨 进程 或 者 在 不 同 Server 之 间 就 比较 困难 。ZooKeeper 采用 了 如 下 实现 
方式 : 需要 获得 锁 的 Client 在 ZooKeeper 的 目录 中 创建 一 个 EPHEMERAL _ 
SEQUENTIAL 临时 节点 ,然后 调用 getChildren 方法 获取 当前 目录 节点 列表 中 最 小 的 目 
录 节 点 ,并 检查 这 个 最 小 的 目录 节点 是 否 是 自己 创建 的 目录 节点 。 如 果 是 , 它 就 获得 了 这 个 
锁 , 如 果 不 是 ,那么 它 就 调用 exists(String path. boolean watch) 方 法 监控 ZooKeeper E H 
录 节 点 列表 的 变化 ,一 直到 获得 锁 。 释 放 锁 则 很 简单 ,只 需 向 ZooKeeper 提请 删除 它 自 己 
所 创建 的 目录 节点 即 可 。 锁 的 取得 和 释放 操作 流程 见 图 11-63. 

4. 分 布 式 消息 队列 

传统 的 单 进程 编程 模型 中 ,我 们 使 用 消息 队列 作为 存储 数据 结构 在 同一 进程 的 多 线程 
之 间 共 享 或 者 传递 数据 。 在 分 布 式 环境 下 ,同样 需要 一 个 类 似 的 存储 数据 结构 来 实现 跨 进 
程 跨 服务 器 、 跨 网 络 的 数据 共享 和 信息 传递 ,这 就 是 分 布 式 消息 队列 。ZooKeeper 支持 以 
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要 获得 锁 的 Client 
L=create(/Locks/Lock i, 
EPHEMERAL SEQUENN 
TIAL) 








getChildren(/locks,false) 
取得 最 小 的 i 值 
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等 和 
exists(/Locks/Lock_j,true) 中 的 
watcher 通 知 











图 11-63 分布 锁 的 取得 和 释放 流程 


下 两 种 类 型 的 队列 。 

(1) 同步 队列 : 当 一 个 队列 的 成 员 都 聚 齐 时 ,这 个 队列 才 可 用 ,否则 一 直 等 待 所 有 成 员 
到 达 。 

(2) FIFO 队列 : 按照 FIFO 方式 操作 入 队 和 出 队 , 例 如 生产 者 和 消费 者 模型 。 

同步 队列 用 ZooKeeper 实现 的 思路 : 创建 一 个 父 目 录 /synchronizing ,每 个 成 员 都 设置 
监听 (Set Watch) 看 目录 /synchronizing/start 是 否 存在 。 然 后 每 个 成 员 都 加 入 这 个 队列 ， 
方式 就 是 创建 /synchronizing/member_i 临时 节点 。 然 后 每 个 成 员 获 取 /synchronizing 目录 
下 的 所 有 目录 节点 ,也 就 是 member_i。 判 断 i 的 值 是 否 已 经 等 于 成 员 数 ,如 果 小 于 成 员 数 
则 继续 等 待 , 如 果 已 经 相等 就 创建 /synchronizing/start, 如 图 11-64 所 示 。 

FIFO 队列 用 ZooKeeper 实现 的 思路 : 在 特定 的 目录 下 创建 SEQUENTIAL 类 型 的 子 
H3t/queue i, 这样 保 证 所 有 成 员 加 入 队列 时 都 是 有 编号 的 。 出 队列 时 通过 getChildrenC ) 
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每 个 成 员 加 入 到 队列 
create(/Synchronizing/member .EPHEMERAL SEQUENCE) 








' 





每 个 成 员 节点 
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否 = 等 待 exists 的 watch 通 知 











图 11-64 ”实现 同步 队列 的 流程 





方法 可 以 返回 当前 队列 中 的 所 有 的 元 素 ,然后 消费 其 中 最 小 的 一 个 ,这 样 就 能 保证 FIFO. 
11. 5.2 作业 调度 与 工作 流 引 敬 Oozie 


Oozie 是 用 于 Hadoop 平台 的 一 个 开源 工作 流 调 度 引 擎 2 ,用 于 管理 和 协调 多 个 运行 
在 Hadoop 平台 上 的 作业 。Ozzie 上 面 可 以 运行 MapReduce, Pig, SSH , eMail 等 任务 ,还 可 
以 自 定义 扩展 任务 类 型 。Oozie 的 工作 原理 见 图 11-65, 可 看 到 所 有 的 任务 都 是 通过 Oozie 
CLI 提交 , 由 Oozie Server 生成 相应 的 任务 客户 端 ( 图 中 有 Hive 客户 端 、Pig 客户 端 、 
MapReduce 客户 端 ) ,并 通过 任务 客户 端 来 执行 相应 的 任务 。 


| 


submit jobs 
oozie cli “| 一 一 一 一 oozie server 





local job 
such as fs-action 


new a hive client 
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new apigjob client 


UAE 


new a mr job client 








new a pig job client 
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图 11-65 Oozie 任务 提交 与 执行 机 制 
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同时 Oozie 还 可 看 作 一 个 Java Web 程序 ,运行 在 Java Servlet 容器 如 Apache Tomcat 
中 ,并 使 用 数据 库 来 存储 工作 流 定义 与 当前 运行 的 工作 流 实 例 , 包 括 实例 的 状态 和 变量 等 数 
据 , 如 图 11-66 所 示 。 
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图 11-66 Ozzie 系统 架构 


Oozie 包含 两 个 核心 功能 : 工作 流 (Workflow) 和 协调 器 (Coordinator) ,前 者 定义 作业 
任务 的 拓扑 和 执行 逻辑 ,后 者 负责 工作 流 的 关联 和 触发 。Ooize 工作 流 中 定义 了 控制 流 
节点 (Control Flow Node) 和 动作 节点 (Action Node) ,都 是 基于 XML 定义 的 。 其 中 ,控制 
流 节点 用 来 定义 工作 流 的 开始 和 结束 (start、end 及 fail 的 节点 ), 并 控制 执行 路 径 
(decision ,fork ,join 等 节点 ); 动作 节点 支持 MapReduce、Pig、SSH、Ozzie 子 任务 等 不 同 
任务 类 型 。Oozie 协调 作业 就 是 通过 时 间 ( 频 率 ) 和 有 效 数 据 触 发 当前 的 Oozie 工作 
流程 。 

图 11-67 是 一 个 包含 Oozie 控制 流 节点 (橙色 和 红色 节点 ) 和 动作 节点 (绿色 节点 ) 的 工 
作 流 示意 图 。 后 面 是 对 控制 流 节 点 的 XML 格式 描述 。 





图 11-67 Oozie 工作 流 示意 图 
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启动 控制 节点 : 工作 流 作业 的 入 口 点 。 


< workflow — app xmlns = "uri:oozie:workflow:0.2" name = "ooziedemo — wf"> 
< start to = "timeCheck"/> 
«/workflow- app» 


未 端 控制 节点 : 结束 工作 流 作业 时 所 用 的 节点 ,表示 工作 流 执行 已 成 功 完 成 。 一 个 工 
作 流 定义 必须 有 一 个 末端 节点 。 


< workflow- app xmlns = "uri:oozie:workflow:0.2" name = "ooziedemo - wf"> 
< end nane = "end"/> 
«/workflow- app» 


停止 控制 节点 : 使 工作 流 作 业 自 行 停止 。 在 到 达 停 止 节点 (kill node) 时 ,如 果 工 作 流 作 
业 启 动 的 一 个 或 更 多 动作 正在 运行 ,那么 当前 运行 的 所 有 动作 都 将 停止 。 工 作 流 定义 可 以 
包含 零 个 或 多 个 停止 节点 。 


< workflow 一 app xmlns = "uri:oozie:workflow:0.2" name = "ooziedemo - wf"> 
<kill name= "fail"> 
< message > Sqoop failed, error message[ $ (wf: errorMessage (wf : lastErrorNode ( ))}]</ 
message» 
«kill» 
«/workflow- app» 


决策 控制 节点 : 使 工作 流 选 择 执行 路 径 。 决 策 节 点 的 工作 原理 类 似 于 拥有 一 组 谓词 转 
换 对 和 一 个 默认 转换 的 switch-case 块 。 谓 词 是 按 顺 序 进 行 评 估 的 ,直至 其 中 一 个 评估 为 
ture 为 止 ,同时 还 会 进行 相应 的 转换 。 如 果 没 有 一 个 谓词 被 评估 为 true, 则 采用 swith 的 默 
认 转 换 。 


< workflow - app xmlns = "uri:oozie:workflow:0.2" name = "ooziedemo — wf"> 
< decision name = "master - decision" 
< switch» 
< case to = "sqoopMergel"» 
$ (w£:actionData( 'hiveSwitch')[ 'paramNum'] eq 1} 
</case> 
< default to = "sqoopMerge2" /> 
</switch> 
</decision> 
«/workflow- app» 


分 支 -连接 控制 节点 : 分 支 节点 将 一 个 执行 路 径 分 为 多 个 并 发 路 径 。 连 接 节点 一 直 等 
待 ,直到 前 面 的 分 支 节点 的 所 有 并 发 执行 路 径 都 到 达 连 接 节 点 为 止 。 分 叉 节点 和 连接 节点 
必须 成 对 使 用 。 


< workflow - app xmlns = "uri:oozie:workflow:0.2”name = "ooziedemo — wf"> 
< fork name = "forking"> 
< path start = "sqoopMergel"/> 
< path start = "sqoopMerge2"/> 
</fork> 
< join name= "joining" to = "hiveSwitch"/^ 
«/workflow- app» 
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在 Oozie 中 ,计算 作业 被 抽象 为 动作 (Action) ,控制 流 节点 则 用 于 构建 动作 间 的 依赖 关 
系 ,它们 一 起 组 成 一 个 有 向 无 环 的 工作 流 图 (Directed Acyclic Graph,DAG), 描 述 了 一 个 完 
整 的 数据 处 理 执行 流程 。 对 于 Oozie 来 说 ,工作 流 就 是 一 系列 的 动作 (比如 MapReduce ff 
务 、Pig 任务 ), 这 些 操作 通过 有 向 无 环 图 的 流程 控制 ,这 种 控制 是 指 : 一 个 动作 的 输入 依赖 
于 前 一 个 任务 的 输出 ,只 有 前 一 个 动作 完全 完成 后 才能 开始 第 二 个 动作 。 

Oozie 工作 流通 过 hPDL 定义 (hPDL 是 一 种 XML 的 流程 定义 语言 ), 工作 流动 作 
(Action) 通 过 远程 系统 启动 任务 。 当 任务 完成 后 ,远程 系统 会 进行 回调 来 通知 任务 已 经 结 
东 , 然 后 再 开始 下 一 个 动作 。Oozie 工作 流 可 以 参数 化 的 方式 执行 (使 用 变量 $ {inputDir} 
定义 ) ,在 提交 工作 流 任务 时 就 同时 提供 参数 ,如 果 参 数 正确 ,Ozzie 就 可 定义 并 行 化 的 工作 
流 任务 。 

Oozie 工作 流 可 以 提高 数据 处 理 流 程 的 平滑 性 ,改善 Hadoop 集群 的 效率 ,并 降低 开发 
和 运营 人 员 的 工作 量 。Oozie 提供 以 下 主要 功能 。 

A) Workflow: 顺序 执行 流程 节点 ,支持 fork( 分 支 多 个 节点 ) ,join( 合 并 多 个 节点 为 一 
^42. Oozie 执行 Workflow 的 具体 步骤 如 下 。 

(D 提交 任务 后 ,Oozie 中 首先 从 指定 的 路 径 中 读 取 job. properties. 

Q 查找 需要 运行 的 Workflow 的 路 径 ( 在 HDFS E) ,将 相应 的 变量 传递 给 Workflow, 

© 读 取 workflow. xml 文件 中 的 节点 定义 ,然后 执行 控制 流 节点 和 动作 节点 。 

(D 在 HDFS 中 读 取 执行 任务 所 依赖 的 jar 包 。 

(2) Coordinator: 定时 触发 Workflow。 

(3) Bundle Job: 绑 定 多 个 Coordinator。 

Oozie 作为 一 个 调度 引擎 ,是 不 同 于 Hadoop 的 jobTracker 实现 的 调度 器 的 ,虽然 两 者 
均 有 “调度 ”之 意 。Oozie 负责 任务 的 调度 分 发 ,是 指 从 提交 作业 的 本 地 ,将 资源 发 送 到 job 
运行 环境 ,比如 Hadoop 集群 。 这 个 “分 发 ”行为 发 生 在 Hadoop 集群 外 。 而 jobTracker 是 
将 Hadoop 作业 拆 分 成 若干 个 MapReduce 子 作 业 , 分 派 给 taskTracker 去 执行 。 这 个 “分 
发 "行为 发 生 在 Hadoop 集群 内 ,是 应 用 程序 本 身 的 功能 , 它 可 以 自己 选择 job 执行 的 先后 
顺序 ,或 者 停止 一 个 正在 执行 的 job ,让 出 资源 给 另 一 个 job ,控制 的 更 为 精细 。 跟 传统 意义 
上 的 调度 工具 含义 不 同 。 


11.5.3 集群 资源 管理 框架 YARN 


YARN 中 是 Hadoop 下 面 的 一 个 开源 子 项 目 ,为 Hadoop 集群 提供 资源 管理 和 调配 功 
能 。YARN 最 初 设计 是 为 了 解决 Hadoop 中 MapReduce 计算 框架 的 资源 管理 问题 ,但 是 现 
在 它 已 成 为 一 个 更 加 通用 的 资源 管理 系统 。 自 Hadoop 2.0 之 后 YARN 加 入 了 Hadoop 生 
态 体系 , 它 运行 在 HDFS 之 上 , 像 一 个 集群 操作 系统 一 样 为 MapReduce、 Spark, Storm, 
Giraph 等 计算 引擎 提供 集群 资源 分 配 调度 服务 (如 图 11-68 所 示 )。YARN 允许 多 个 应 用 
程序 运行 在 一 个 集群 上 ,并 将 资源 按 需 分 配给 它们 ,这 大 大 提高 了 集群 资源 利用 率 ; 其 次 ， 
YARN 允许 各 类 短 作业 和 长 服务 混合 部 署 在 一 个 集群 中 ,并 提供 了 容错 ,资源 隔离 及 负载 
均衡 等 方面 的 支持 ,这 大 大 简化 了 作业 和 服务 的 部 署 和 管理 成 本 ,强化 了 对 应 用 程序 的 
支持 。 
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Æ 11-68 YARN 在 Hadoop 生态 圈 中 的 位 置 


YARN 总 体 上 采用 Master/Slave 架构 , 如 图 11-69 所 示 , 其 中 , Master 被 称 为 
ResourceManager，Slave 被 称 为 NodeManager，ResourceManager 负责 对 各 个 
NodeManager 上 的 资源 进行 统一 管理 和 调度 。 当 用 户 提交 一 个 应 用 程序 时 ,需要 提供 一 个 
用 以 跟踪 和 管理 这 个 程序 的 ApplicationMaster, 它 负责 向 ResourceManager 申请 资源 ,并 
要 求 NodeManger 启动 可 以 占用 一 定 资源 的 Container。 由 于 不 同 的 ApplicationMaster 被 
分 布 到 不 同 的 节点 上 ,并 通过 一 定 的 隔离 机 制 进行 了 资源 隔离 ,因此 它们 之 间 不 会 相互 
影响 。 





MapReduce Status — —— 
Job Submission -- > 
Node Status 
Resource Request ... 





图 11-69 YARN 架构 与 交互 流程 


1. YARN 体系 架构 

作为 一 种 分 布 式 系统 的 资源 管理 调度 器 ,YARN 采用 了 如 图 11-69 所 示 的 Master/ 
Slave 架构 , 即 一 个 Master 节点 连接 并 支持 多 个 Slave 节点 ,这 里 的 Master 为 YARN 的 
Resource Manager.Slave 为 NodeManager。 在 YARN 体系 中 还 包括 Application Master, 
Container, YARN Client 等 组 件 ,其 部 署 方式 为 : Resource Manager 部 署 并 运行 在 Hadoop 
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集群 的 NameNode 上 (取代 了 以 前 的 JobTracker 的 角色 ); Node Manager 部 署 在 每 个 
DataNode 上 ,作为 Resource Manager 的 节点 代理 ; 每 个 DataNode 都 包含 一 个 或 多 个 
Container( 计 算 资源 抽象 模型 ) 用 于 资源 调度 ; 每 一 个 提交 给 Hadoop 集群 的 Application 
(如 MapReduce、Spark 等 ) 都 有 一 个 Application Master 与 之 对 应 ,运行 在 某 个 DataNode 
上 (取代 了 以 前 的 TaskTracker 角色 )。YARN 主要 部 件 具 体 部 署 架构 见 图 11-70。 


Client Client 


ResourceManager 
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NodeManager 


ApplicationMaster 


1 i 1 i i 

| NodeManager | | NodeManager | NodeManager NodeManager | 
$ Container Container Container | Container Container 
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A 11-70 YARN 的 部 署 架 构 


YARN 架构 中 主要 组 件 的 功能 定义 如 下 。 

Resource Manager(RM) : 是 YARN 体系 的 Master, 负 责 管理 整个 集群 的 资源 分 配 ,将 
各 种 计算 资源 (计算 、 内 存 、 带 宽 等 ) 以 抽象 资源 单位 Container 的 形式 分 配给 Node 
Manager(YARN 的 节点 代理 ) 供 Application 使 用 。Resource Manager 作为 集群 资源 的 管 
理 调度 员 角 色 , 如 果 发 生 单 点 故障 , 则 整个 集群 的 资源 都 无 法 使 用 。 在 Hadoop 2. 4.0 版 本 
之 后 增加 了 RM High Availability 的 特性 ,增加 了 RM 的 可 用 性 。 

RM 组 件 自身 的 组 成 结构 见 图 11-71。 

Node Manager(NM): 是 Resource Manager 的 Slave, 是 集群 中 实际 拥有 计算 资源 使 用 
权 的 工作 节点 。 在 Application 提交 作业 以 后 ,YARN 会 将 组 成 作业 的 多 个 Task 调度 分 配 
到 多 个 DataNode 上 执行 计算 ,而 一 个 DataNode 可 能 需要 同时 承担 多 个 不 同 Application 
的 Task。 这 时 ,就 需要 NM( 与 Application Master 配合 ) 提 供 节点 上 的 资源 分 配 和 Task 调 
度 服务 。NM 的 调度 是 基于 抽象 资源 模型 Container( 资 源 容 器 ) , 它 代 表 着 可 供 一 个 特定 应 
用 程序 使 用 的 该 节点 提供 的 计算 资源 (CPU 内 存 空 间 、 网 络 带宽 等 ),NM 提供 资源 容器 的 
生命 周期 管理 以 及 对 节点 状态 的 监控 。YARN 继续 使 用 HDFS 层 , 但 主要 将 NameNode 
用 于 元 数据 服务 ,而 DataNode 用 于 集群 中 数据 块 的 复制 存储 服务 。NM 组 件 的 组 成 结构 
见 图 11-72。 
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图 11-71 Resource Manager(RM) 的 组 成 结构 
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图 11-72 Node Manager(NM) 的 组 成 结构 


Application Master(AM) : 主要 管理 和 监控 运行 在 DataNode 上 的 Application task, 
以 MapReduce 为 例 ,MapReduce Application 是 一 个 用 来 处 理 MapReduce 计算 的 服务 框架 
程序 ,通常 用 户 编写 的 MapReduce 程序 包含 多 个 Map Task 和 Reduce Task ,而 各 个 Task 
的 运行 管理 与 监控 都 是 由 这 个 Application Master 来 负责 。 比 如 执行 Task 所 需 资源 的 申 
请 由 AM 向 Resource Manager 申请 ; 启动 /停止 NM 上 某 个 Task 对 应 的 Container, 也 由 
AM 向 Node Manager 发 出 请 求 。 从 YARN 的 角度 ,Application Master 是 用 户 代 码 , 因 此 
存在 潜在 的 安全 问题 ,因此 将 它们 当 作 无 特权 的 代码 对 待 。 

Container: 是 YARN 对 集群 计算 资源 建立 的 抽象 模型 .即将 Node Manager 上 的 计算 
资源 (CPU、 内 存 空 间 ) 进 行 封装 和 量化 ,根据 需要 组 装 成 一 个 个 Container, 然 后 服务 于 已 给 
予 资源 授权 的 Task. Task 在 完成 计算 后 ,系统 会 回收 资源 ,以 供 后 续 计 算 任务 申请 使 用 。 
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Container 目前 包含 两 种 资源 : 内 存 和 CPU, 以 后 的 Hadoop 版 本 可 能 会 增加 硬盘 空间 、 网 
络 带宽 等 物理 资源 。 

YARN Client; 负责 提交 Application 运行 申请 到 RM , 它 会 首先 创建 一 个 Application 
上 下 文 对 象 ,并 设置 AM 必需 的 资源 请 求 信息 ,然后 提交 到 RM。YARN Client 也 可 以 与 
RM 通信 ,获取 一 个 已 经 提交 并 运行 的 Application 的 状态 信息 等 。 

2. 抽象 资源 模型 与 调度 架构 

YARN 采用 的 是 基于 抽象 资源 单位 (Container) 的 资源 调度 模型 。 所 谓 抽象 资源 单位 ， 
是 指 不 再 把 物理 资源 (YARN 目前 只 考虑 CPU 和 内 存 ) 作 为 调度 单位 ,而 是 把 物理 资源 
(CPU, ,内存 条 ) 映 射 到 抽象 资源 单位 Container( 如 图 11-73 所 示 ) ,然后 基于 抽象 资源 单位 
进行 资源 分 配 调度 。 比 如 Rource Manager 使 用 Container 作为 资源 调度 的 基本 单位 ,每 个 
Container 包含 一 定量 的 CPU 时 间 ( 也 可 看 作 虚 拟 CPU) 和 一 定 大 小 的 内 存 ( 虚 拟 内存 ); 一 
个 CPU 需要 支持 多 个 Container, 一 个 节点 的 内 存 空 间 也 是 划分 为 多 个 Container 共享 。 用 
户 程序 运行 在 Container 中 ,有 点 儿 类 似 虚 拟 机 。RM 负责 接收 用 户 的 资源 请 求 并 分 配 
Container. NM 负责 启动 Container 并 监控 资源 使 用 。 如 果 使 用 的 资源 (目前 只 有 内 存 ) 超 
出 Container 的 限制 ,相应 进程 会 被 NM 杀 掉 。 可 见 Container 这 个 概念 不 只 用 于 资源 分 
配 ,也 用 于 资源 隔离 。YARN 支持 内 存 和 CPU 两 种 资源 隔离 。 对 于 应 用 程序 而 言 ,内 存 大 
小 是 一 种 决定 生死 的 资源 ,而 CPU 时 间 则 是 一 种 影响 快慢 的 资源 。YARN 提供 的 内 存 隔 
离 包括 基于 线程 监控 的 方案 和 基于 Cgroups(Control groups) 的 方案 ,CPU 隔离 则 包括 默认 
不 隔离 和 基于 Cgroups 的 CPU 隔离 方案 。 
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图 11-73 物理 资源 到 抽象 资源 的 映射 


Container 映射 的 物理 资源 是 有 最 大 额 限制 的 。 通 常 每 个 Container 最 多 只 能 有 8GB 
内 存 , 可 用 到 8 个 CPU ,这 是 由 RM 端的 以 下 两 个 参数 决定 的 。 

yarn. scheduler. maximum-allocation-mb 

yarn. scheduler. maximum-allocation-vcores 

Container 的 另 一 个 特性 是 客户 端 可 以 要 求 它 的 Container. 只 分 配 特定 节点 的 物理 资 
源 , 这 样 用 户 的 程序 可 以 只 在 特定 的 节点 上 执行 ,这 跟 计算 本 地 性 要 求 有 关 。 

YARN 的 资源 调度 模型 主要 包含 两 点 : 两 层 调度 框架 和 基于 资源 预 留 的 调度 策略 。 
两 层 调 度 框 架 包 括 RM 把 资源 分 配给 AM 的 第 一 层 调度 ,以 及 AM 在 其 内 部 把 资源 分 配给 
Task 的 第 二 层 调 度 。 资 源 预 留 策略 指 资源 不 够 时 ,会 为 Task 预 留 资 源 , 直 到 够 它 使 用 。 
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YARN 采用 两 层 调度 框架 ,解决 了 原来 的 MapReduce 使 用 的 jobTracker 单 层 集中 调 
度 模 型 的 如 下 问题 。 

(1) 集中 式 调 度 模式 的 扩展 性 差 , 集 群 规模 受 限 ,因为 高 负载 的 jobTracker 可 能 是 个 性 
能 瓶颈 。 

(2) jobTracker 主要 是 为 MapReduce 计算 模型 而 设计 ,很 难 再 有 效 支 持 其 他 计算 模型 
(比如 流 计算 )。 

与 MapReduce 的 集中 式 单 层 调度 器 比较 (图 11-74),YARN 的 双 层 调度 器 可 看 作 是 一 
种 负载 分 担 或 策略 下 放 机 制 : 双 层 调度 器 仍 保留 一 个 简化 的 集中 式 资源 调度 器 (RM) ,但 与 
Task 相关 的 调度 细节 则 下 放 给 各 个 AM 完成 。 这 种 双 层 调度 结构 使 得 负载 分 散 、 分 工 明 
确 、 协 同 配合 .扩展 性 好 。RM 的 调度 侧重 集群 范围 内 的 资源 的 有 效 管理 和 公平 使 用 ， AM 
则 在 应 用 程序 内 根据 具体 的 任务 要 求 分 配 资源 ,可 以 支持 不 同 的 计算 模型 。 双 层 调度 器 的 
不 足 之 处 是 : 各 个 AM 调度 器 无 法 知道 整个 集群 的 实时 资源 使 用 情况 ; 调度 采用 悲观 锁 9 
锁定 占用 资源 ,并 发 粒度 小 。YARN 的 资源 调度 支持 如 下 的 调度 策略 。 





图 11-74 集中 式 调度 (jobTracker)vs. 两 层 调度 (YARN) 


1) FIFO(First-In-First-Out) 

FIFO 是 最 简单 (也 是 默认 ) 的 调度 器 。 只 有 一 个 队列 ,所 有 用 户 共享 。 资源 分 配 的 过 
程 也 非常 简单 , 先 到 先 得 ,所 以 很 容易 出 现 一 个 用 户 占 满 集群 所 有 资源 的 情况 。 可 以 设置 
ACL(Access Control List) ,但 不 能 设置 各 个 用 户 的 优先 级 。 优 点 是 简单 、 好 理解 ,缺点 是 无 
法 控制 每 个 用 户 的 资源 使 用 额度 。 一 般 不 用 于 生产 系统 。 

2) Capacity Scheduler 

Capacity Scheduler 在 FIFO 的 基础 上 增加 多 用 户 支 持 , 最 大 化 集群 吞吐 量 和 利用 率 。 
基于 一 个 很 朴素 的 思想 : 每 个 用 户 都 可 以 使 用 特定 量 的 资源 ,但 集群 空闲 时 ,也 可 以 使 用 整 
个 集群 的 资源 ,也 就 是 说 , 单 用 户 的 情况 下 和 FIFO 差不多 。 这 种 考虑 是 为 了 提高 整个 集群 
的 资源 利用 率 ,避免 集群 有 资源 但 不 能 提交 任务 的 情况 。 其 设计 要 点 如 下 。 

CD 划分 用 户 队列 使 用 XML 文件 配置 ,每 个 队列 可 以 使 用 特定 百分比 的 资源 。 

(2) 队列 可 以 是 树 状 结构 , 子 队列 资源 之 和 不 能 超过 父 队 列 ; 所 有 叶子 节点 的 资源 之 
和 必须 是 100%, 只 有 叶子 节点 能 提交 任务 。 

(3) 可 以 为 每 个 队列 设置 ACL(Access Control List) ,哪些 用 户 可 以 提交 任务 、 哪 些 用 
户 有 admin 权限 ,ACL 可 以 继承 。 
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(4) 队列 资源 可 以 动态 变化 。 最 多 可 以 占用 100% 的 资源 。 管 理 员 也 可 以 手动 设置 
EB. 

(5) 配置 可 以 动态 加 载 ,但 只 能 添加 队列 ,不 能 删除 。 

(6) 可 以 限制 整个 集群 或 每 个 队列 的 并 发 任务 数量 。 

(7) 可 以 限定 AM 使 用 的 资源 比例 ,避免 所 有 资源 用 来 执行 AM 而 其 他 任务 只 能 无 限 
期 等 待 的 情况 。 

Capacity Scheduler 的 优点 是 : 使 用 灵活 ,集群 的 利用 率 高 ; 缺点 也 是 灵活 , 某 个 用 户 的 
程序 最 多 可 以 占用 100% 的 资源 ,如 果 它 一 直 不 释放 ,其 他 用 户 只 能 等 待 ,因为 Capacity 
Scheduler 不 支持 抢占 式 调度 ,必须 等 上 一 个 任务 主动 释放 资源 。 

3) Fair Scheduler 

目前 使 用 的 调度 器 ,其 设计 思路 首先 强调 “公平 ”, 即 每 个 用 户 只 有 特定 额度 的 资源 可 以 
用 ,不 能 超出 这 个 限制 ,即使 集群 很 空 亲 。 其 设计 特点 如 下 。 

(1) 使 用 XML 文件 配置 ,每 个 队列 可 以 使 用 特定 数量 的 内 存 和 CPU. 

(2) 队列 是 树 状 结构 。 只 有 叶子 节点 能 提交 任务 。 

(3) 可 以 为 每 个 队列 设置 ACL。 

(4) 可 以 设置 每 个 队列 的 权重 。 

(5) 配置 可 以 动态 加 载 。 

(6) 可 以 限制 集群 ,队列 、 用 户 的 并 发 任务 数量 。 

(7) 支持 抢占 式 调度 。 

Fair Scheduler 的 优点 是 : 稳定 ,管理 方便 , 运 维 成 本 低 ; 缺点 是 相对 Capacity Scheduler fili 
牲 了 灵活 性 ,经 常 出 现 某 个 队列 资源 用 满 ,但 集群 整体 还 有 空闲 的 情况 。 整 体 的 资源 利用 率 
不 高 。 

Fair Scheduler 使 用 的 调度 算法 有 Max-Min Fairness 51:0? DRF 算法 5 ,详细 内 容 
可 参阅 相关 技术 文档 。 

从 2. 6. 0 版 本 开始 ,YARN 引入 了 一 种 新 的 调度 策略 : 基于 标签 的 调度 机 制 59 。 该 机 
制 的 主要 动机 是 更 好 地 让 YARN 运行 在 异 构 集群 中 、 更 好 地 管理 和 调度 混合 类 型 的 应 用 程 
序 。 该 策略 的 基本 做 法 是 : 用 户 可 为 每 个 NodeManager 打上 标签 ,比如 highmem highdisk 
等 ,作为 NodeManager 的 基本 属性 ; 同时 用 户 可 以 为 调度 器 中 的 队列 设置 若干 标签 ,控制 
该 队列 只 能 占用 打上 对 应 标签 的 节点 资源 ,从 而 使 得 某 些 队列 中 的 作业 只 能 运行 在 一 些 特 
定 节点 上 。 通 过 打 标 签 , 用 户 可 将 Hadoop 分 成 若干 个 按 功 能 或 性 能 划分 的 子 集群 ,进而 使 
得 用 户 可 将 应 用 程序 分 类 运行 到 符合 某 种 特征 的 节点 上 ,比如 可 将 内 存 密集 型 的 应 用 程序 
(比如 Spark) 运 行 到 大 内 存 节点 上 ,从 而 达到 更 有 效 地 使 用 资源 、 更 好 服务 应 用 程序 的 
目的 。 

从 MapReduce 时 代 开 始 ,迁移 程序 比 迁移 数据 更 经 济 的 概念 就 深入 人 心 。 在 YARN 
中 当然 也 继承 了 这 一 传统 。 这 一 特性 主要 是 用 来 配合 HDFS 的 ,因为 HDFS 的 多 副本 , 任 
务 应 该 尽量 在 选择 Block 所 在 的 机 器 上 执行 ,可 以 减少 网 络 传输 的 消耗 。 如 果 开 启 了 
Short-Circuit Read 特性 ,还 可 以 直接 读本 地 文件 ,提高 效率 。 

本 地 性 衡量 参数 有 三 个 级 别 : NODE_LOCAL、RACK_LOCAL、OFF_SWITCH ,分 别 
代表 同 节点 、 同 机 架 、 跨 机 架 。 计 算 效 率 会 依次 递减 。 
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根据 前 面 所 述 ,Container 在 申请 时 可 以 指定 节点 ,但 这 不 是 强制 的 。 只 有 NM 心跳 检 
测 在 线 的 时 候 才 会 分 配 资源 ,所 以 Container 一 般 无 法 确定 自己 在 哪个 节点 上 执行 ,基本 是 
随机 的 。Scheduler 能 做 的 只 是 尽量 满足 NODE_LOCAL, 尽 量 避 免 OFF_SWITCH。 计 算 
本 地 性 更 多 地 要 AM 端 配合 , 当 AM 拿 到 资源 后 ,优先 分 配给 NODE_LOCAL 的 任务 。 

但 Fair Scheduler 允许 一 个 APP 错过 若干 次 调度 机 会 ,以便 能 分 到 一 个 NODE_ 
LOCAL 节点 ,由 yarn. scheduler. fair. locality. threshold. node 控制 。 这 个 参数 是 一 个 百 分 
比 ,表示 相对 整个 集群 的 节点 数目 而 言 ,一 个 APP 可 以 错过 多 少 次 机 会 。 比 如 yarn. 
scheduler. fair. locality. threshold. node 为 0. 2 ,集群 节 点 数 为 10。 那 么 Fair Scheduler 分 配 
这 个 资源 时 ,发 现 当 前 发 来 心跳 的 NM 不 能 满足 这 个 APP 的 NODE. LOCAL 要 求 , 就 会 跳 
过 ,继续 寻找 下 一 个 APP。 相 当 于 这 个 APP 错过 一 次 调度 机 会 ,最 多 可 以 错过 2 次 。 对 
RACK LOCAL 而 言 , 有 一 个 参数 yarn. scheduler. fair. locality. threshold. rack. 作用 差 
不 多 。 

3. 作业 执行 过 程 

要 启动 YARN 资源 调度 并 使 用 集群 资源 ,需要 从 客户 端 提交 一 个 包含 应 用 程序 的 请 
求 。Resource Manager 会 协商 配置 一 个 Container 的 必要 资源 ,启动 一 个 Application 
Master 来 代表 已 提交 的 应 用 程序 。Application Master 再 通过 一 个 资源 请 求 协议 与 Node 
Manager 协商 每 个 节点 上 供应 用 程序 使 用 的 Container。 在 应 用 程序 执行 时 Application 
Master 会 监视 容器 状态 , 当 应 用 程序 结束 时 , Application Master 会 到 Resource Manager 
处 注销 这 个 Container ,作业 执 行 周期 即 告 完 成 。 

如 图 11-75 所 示 ,YARN 的 作业 执行 流程 主要 包含 以 下 几 个 步骤 。 

1) 作业 提交 

Client 调用 job. waitForCompletion 方法 ,向 RM 提交 MapReduce 作业 (图 中 第 1 步 ); 
新 的 作业 ID( 应 用 ID) h RM 分 配 (第 2 步 ); 作业 所 属 的 Client 核实 作业 的 输出 ,计算 输入 
的 Split, 将 作业 的 信息 (包括 jar 包 , 配 置 文件 ，Split 信息 ) 复 制 给 HDFS 文件 系统 (第 3 
步 ); 最 后 ,通过 调用 RM 的 submitApplication() 来 完成 作业 提交 (第 4 步 )。 

2) 作业 初始 化 

当 RM 收 到 submitApplciation() 的 请 求 ,即将 该 请 求 发 给 调度 器 (Scheduler) 分 配 
Container( 第 5a 2b) ,然后 RM 在 该 Container 内 启动 AM 进程 (第 5b 步 ), 由 NM 监控 。 
MapReduce 作业 的 AM 是 一 个 类 型 为 MRAppMaster 的 Java 进程 , 它 先 完成 作业 初始 化 
(第 6 步 ), 再 从 HDFS 中 读 取 该 作业 的 Split 信息 (第 7 步 ), 通 过 创造 一 些 bookkeeping 对 
象 来 监控 作业 的 进度 ,得 到 任务 的 进度 和 完成 报告 。 

3) 任务 分 配 

如 果 作 业 很 小 , AM 会 选择 在 其 自己 的 JVM 中 运行 任务 。 如 果 不 是 小 作业 ,那么 AM 
会 向 RM 请 求 Container 来 运行 所 有 的 Map 和 Reduce 任务 (第 8 步 )。 这 些 请 求 是 通过 心 
跳 来 传输 的 ,包括 每 个 Map 任务 的 数据 位 置 , 比 如 存放 输入 Split 的 主机 名 和 机 架 。AM 利 
用 这 些 信息 来 调度 任务 ,尽量 将 任务 分 配给 存储 数据 的 节点 ,或 者 分 配给 与 存放 输入 Split 
节点 相同 机 架 的 节点 。 

4) 任务 运行 

当 一 个 任务 由 RM 的 Scheduler 分 配 一 个 Container 后 ,， AM 通过 联系 NM 来 启动 
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Container( 第 9a 25) ,任务 由 一 个 主 类 为 YarnChild 的 Java 应 用 执行 (第 9b 步 )。 在 运行 任 
务 之 前 首先 从 HDFS 读 取 任务 需要 的 资源 ,比如 作业 配置 jar 文件 ,以 及 分 布 式 缓存 的 所 
有 文件 (第 10 步 ) ,然后 执行 Map 或 Reduce 任务 (第 11 步 ) 。 

5) 进度 和 状态 更 新 

运行 中 的 任务 将 其 进度 和 状态 (包括 counter) 返 回 给 AM, 客户 端 每 秒 钟 (通过 
mapreduce. client. progressmonitor. pollinterval 设置 ) 向 AM 查询 进度 更 新 ,并 展示 给 用 户 。 

6) 作业 完成 

除了 向 AM 请 求 作 业 进 度 外 ,客户 端 每 隔 5 分 钟 会 通过 调用 waitForCompletion() 来 检 
查 作业 是 否 完成 。 这 个 时 间 间 隔 可 以 通过 mapreduce. client. completion. pollinterval 来 设 
置 。 作 业 完成 之 后 , AM 和 Container 会 清理 工作 状态 ,作业 的 信息 会 被 存储 以 备 以 后 用 户 
查询 。 
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图 11-75 YARN 的 作业 执行 流程 
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习题 


a e sy 


Hadoop 集群 中 可 以 用 几 种 模式 进行 ? 每 种 模式 有 哪些 特点 ? 

Hadoop 的 核心 配置 是 什么 ? 拥有 哪些 配置 文件 ? 

集群 中 的 Master 和 Slave 节点 是 如 何 组 成 的 ? 

为 什么 SSH 本 地 主机 需要 密码 ?如果 在 SSH 中 添加 Key, 是 否 还 需要 设置 密码 ? 
如 何 重 启 NameNode? 








12.1 分 布 式 并 行 计 算 系 统 


对 于 并 行 计 算 系 统 , 斯 坦 福 大 学 教授 Michael J. Flynn 于 1972 年 提出 了 并 行 计算 模型 
的 Flynn 分 类 口 , 即 按照 指令 流 和 数据 流 分 为 如 下 4 种 计算 模型 (如 图 12-1 所 示 ) 。 

(1) 单 指令 流 单数 据 流 (Single Instruction Stream.Single Data Stream. SISD) ; 

(2) 单 指令 流 多 数据 流 (Single Instruction Stream. Multiple Data Streams, SIMD) ; 

(3) 多 指令 流 单数 据 流 (Multiple Instruction Streams, Single Data Stream. MISD) ; 

(4) 多 指令 流 多 数据 流 (Multiple Instruction Streams. Multiple Data Streams, MISD) 。 
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图 12-1 Flynn 的 并 行 计 算 模 型 分 类 


1. 单 指令 流 单数 据 流 

SISD 是 采用 一 个 指令 流 处 理 单 个 数据 流 。SISD 机 器 是 一 种 传统 的 串 行 计算 机 ,它们 
大 多 是 单 处 理 器 (Uniprocessor) 系 统 ,硬件 不 支持 任何 形式 的 并 行 计 算 , 所 有 的 指令 都 是 串 
行 执行 。 并 且 在 一 个 时 钟 周 期 内 ,CPU 只 能 处 理 一 个 数据 流 , 如 图 12-2(a) 所 示 。 因 此 这 种 
机 器 被 称 作 单 指令 流 单 数据 流 机 器 。 早 期 的 单 处 理 器 计算 机 都 是 SISD 机 器 ,如 IBM PC、 
早期 的 巨型 计算 机 和 许多 8 位 的 家 用 计算 机 等 。 
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2. 单 指 令 流 多 数据 流 


SIMD 是 采用 一 个 指令 流 处 理 多 个 数据 流 。 这 类 计算 机 可 以 是 多 个 CPU 或 GPU ,但 
运行 同一 套 指令 流 处 理 不 同 的 数据 集 , 如 图 12-2(b) 所 示 。 这 种 计算 模型 在 数字 信和 号 处 理 、 
图 像 处 理 ,以 及 多 媒体 信息 处 理 等 领域 得 到 广泛 应 用 。 现 代 计算 机 即使 是 单 处 理 器 也 多 半 
是 多 核 , 即 带 有 多 个 CPU ,也 就 是 说 我 们 现在 用 的 单 处 理 器 计算 机 基本 上 都 属于 SIMD 机 
d. d Intel 处 理 器 实现 的 MMXTM.、SSE(Streaming SIMD Extensions) ,SSE2 及 SSE3 扩 
展 指令 集 ,都 能 在 单个 时 钟 周期 内 处 理 多 个 数据 单元 。 

3. 多 指令 流 单数 据 流 

MISD 是 采用 多 个 指令 流 来 处 理 单个 数据 流 ,如 图 12-2(c) 所 示 。 由 于 在 实际 情况 中 ， 
采用 多 指令 流 处 理 多 数据 流 才 是 更 有 效 的 方法 ,因此 MISD 只 是 作为 理论 模型 出 现 ,没有 得 
到 实际 应 用 。 

4. 多 指令 流 多 数据 流 

MIMD 是 采用 多 个 指令 流 同 时 处 理 多 个 数据 流 , 这 些 指令 流 分 别 对 不 同 数据 流 进行 操 
作 , 如 图 12-2(c) 所 示 。MIMD 系统 是 一 种 典型 的 多 处 理 器 并 行 计算 体系 , 它 又 分 为 多 核 ( 单 
地 址 空间 共享 内 存 ) 计 算 和 分 布 式 计算 (多 地 址 空间 独立 内 存 ) 两 大 类 ,这 在 后 面 有 详细 叙述 。 
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12-2 4 种 并 行 计算 模型 


SISD 已 是 一 种 淘汰 的 计算 体系 ,MISD 并 无 实际 应 用 价值 ,SIMD 只 适合 于 一 些 集中 式 
处 理 数据 的 应 用 场景 (如 图 像 处 理 `.GPU 计算 ) .只 有 MIMD 模型 在 并 行 计算 ,分 布 式 计算 ， 
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以 及 大 数据 计算 领域 得 到 了 广泛 采用 ,成 为 一 种 主流 计算 体系 和 模式 。 

如 图 12-3 所 示 ,按照 处 理 器 是 否 共享 内 存 .MIMD 又 分 为 多 处 理 器 共享 内 存 ( 单 地 址 空 
间 ) 机 器 和 多 计算 机 独立 内 存 ( 多 地 址 空间 ) 体 系 两 大 类 。 前 者 包括 UMA (Uniform 
Memory Access) 架构 和 NUMA (Nom-uniform Memory Access) 架 构 ; 后 者 包括 MPP 
(Massive Parallel Processing) 和 集群 (Cluster) 两 种 计算 架构 。 归 属于 MIMD 体系 的 计算 
机 有 并 行 向 量 处 理 机 (PVP) 、 对 称 多 处 理 机 (SMP) 、 大 规模 并 行 处 理 机 (MPP) 工作 站 机 群 
(COW) ,分 布 式 共享 存储 处 理 机 (DSM) 等 主要 类 型 ,下 面 对 其 一 一 进行 介绍 。 
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图 12-3 MIMD 计算 体系 


UMA 称 为 一 致 性 存储 访问 结构 , 指 在 一 个 母 版 上 多 个 处 理 器 共享 中 央 存 储 器 ,具有 统 
一 的 内 存 地 址 空间 。 典 型 的 采用 UMA 架构 的 机 器 有 并 行 向 量 处 理 机 (Pipeline Vector 
Processor. PVP) 和 对 称 多 处 理 器 计算 机 (Symetric Multi-processor. SMP)。 并 行 向 量 处 理 
机 有 克 雷 公司 的 超级 计算 机 Cray T90. SMP 计算 机 则 是 现在 商用 高 端 服 务 器 的 主流 机 型 
EA 

MIMD 各 种 体系 的 结构 如 图 12-4 所 示 。 

1. SMP(Symmetric Multi-processing) 


SMP 对 称 多 处 理 器 结构 四 是 指 多 核 服 务 器 中 多 个 CPU 对 称 工作 ,无 主 次 或 从 属 之 分 ， 
各 CPU 共享 相同 的 物理 内 存 , 使 用 同一 地 址 空间 ,每 个 CPU 访问 内 存 中 的 任何 地 址 所 需 
时 间 是 相同 的 (不 存在 因 访 问 异 地 内 存 导致 的 延迟 时 间 )。 对 SMP 服务 器 进行 扩展 的 方式 
包括 增加 内 存 、 使 用 更 快 的 CPU 增加 CPU 个 数 、 扩 充 IO( 槽 口 数 与 总 线 数 ) 以 及 添加 更 
多 的 外 部 设备 (通常 是 磁盘 存储 ) 。 
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图 12-4. MIMD 各 种 体系 的 结构 


SMP 服务 器 的 主要 特征 是 共享 物理 资源 ,系统 中 所 有 资源 (CPU ,内存 .IO 等 ) 都 是 共 
享 的 。 也 正 是 由 于 这 个 特征 ,导致 了 SMP 服务 器 的 扩展 能 力 非 常 有 限 。 对 于 SMP 服务 器 
而 言 ,每 一 个 共享 的 资源 都 可 能 造成 SMP 服务 器 扩展 时 的 性 能 瓶颈 ,而 最 受 限 制 的 则 是 内 
存 空 间 。 由 于 每 个 CPU 必须 通过 相同 的 内 存 总 线 访 问 相 同 的 物理 内 存 , 导 致 随 着 CPU 数 
量 的 增加 ,内 存 访问 冲突 将 迅速 增加 ,在 存储 器 接口 达到 饱和 的 时 候 , 增 加 处 理 器 并 不 能 获 
得 更 高 的 性 能 ,反而 造成 CPU 资源 的 浪费 ,使 CPU 有 效 使 用 率 大 大 降低 。 实 验证 明 ,SMP 
服务 器 CPU 利用 率 最 好 的 情况 是 2 一 4 个 CPU( 如 图 12-5 所 示 ) 。 
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2. NUMA(Non-Uniform Memory Access) 


由 于 SMP 的 扩展 性 受 限 制 ,人 们 提出 了 NUMA( 非 一 致 性 存储 访问 ) £6 909, 
NUMA 结构 把 几 十 个 CPU( 甚 至 上 百 个 CPU) 组 合成 多 个 CPU 模块 ,每 个 CPU 模块 由 多 
个 CPU( 如 4 个 ) 组 成 ,具有 独立 的 本 地 内 存 、1/O 槽 口 等 。 模 块 单元 之 间 可 以 通过 连接 模 
块 ( 称 为 Crossbar Switch) 进 行 连接 和 数据 交换 ,如 图 12-6 所 示 。 因 此 每 个 模块 内 的 CPU 
可 以 访问 整个 系统 的 内 存 (这 是 NUMA 系统 与 MPP 系统 的 重要 差别 ) ,使 用 统一 的 访问 地 
址 空间 。 当 然 ,CPU 访问 本 地 模块 内 存 的 速度 将 远 远 高 于 访问 其 他 单元 内 存 ( 系 统 内 其 他 
节点 内 存 ) 的 速度 ,这 也 是 非 一 致 性 存储 访问 (NUMA) 名 称 的 由 来 。 鉴 于 NUMA 结构 的 这 
个 特点 ,开发 应 用 程序 时 需要 尽量 减少 不 同 CPU 模块 之 间 的 信息 交互 。 利 用 NUMA 技 
术 , 可 以 较 好 地 解决 原来 SMP 架构 的 扩展 问题 ,在 一 台 物 理 服务 器 内 可 以 支持 上 百 个 
CPU。 比 较 典 型 的 NUMA 服务 器 的 例子 包括 HP Superdome, SUN 15K,IBM P690 等 。 
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图 12-6 NUMA 组 成 结构 


NUMA 技术 也 有 一 定 缺陷 。 由 于 访问 远 地 内 存 的 时 延 远 远 超 过 本 地 内 存 , 因 此 当 
CPU 数量 增加 超过 一 定 值 时 ,其 系统 性 能 无 法 线性 增加 。HP 公司 发 布 Superdome 服务 器 
时 , 曾 公 布 了 它 与 其 他 UNIX 服务 器 的 相对 性 能 值 的 比较 ,结果 发 现 ,64 路 CPU 的 
Superdome(NUMA 结构 ) 的 相对 性 能 值 是 20 ,而 8 路 N4000( 共 享 的 SMP 结构) 的 相对 性 
能 值 是 6. 3。 从 这 个 结果 可 以 看 到 ,8 倍数 量 的 CPU 换 来 的 只 是 3 倍 性 能 的 提升 。 

NUMA 结构 还 包括 COMA (Cache-Only Memory Access) , CC-NUMA ( Cache 
Coherent Non-Uniform Memory Access)" 9 , NCC-NUMA ( Non-Cache Coherent Non- 
Uniform Memory Access) 中 等 形式 。COMA 实际 是 NUMA 的 一 种 特例 , 它 将 NUMA 中 
的 分 布 存储 器 换 成 了 高 速 缓存 。 在 COMA 中 ,每 个 节点 上 没有 存储 层次 结构 ,所 有 的 高 速 
缓存 构成 了 全 局 地 址 空间 ,访问 远程 高 速 缓存 要 借助 分 布 的 高 速 缓存 目录 。CC-NUMA 的 
Cache Coherent 是 指 缓存 中 的 数据 和 共享 内 存 中 的 数据 有 专门 的 硬件 来 保持 一 致 ,不 需要 
软件 来 保持 多 个 数据 复制 的 一 致 性 ,也 不 需要 软件 来 实现 操作 系统 与 应 用 系统 的 数据 传输 。 
CC-NUMA 结构 的 并 行 机 实际 上 是 将 一 些 SMP 机 作为 节点 互 连 起 来 而 构成 的 并 行 机 。 这 
样 可 以 改善 SMP 机 的 可 扩展 性 。 绝 大 多 数 商 用 CC-NUMA 多 处 理 机 系统 使 用 基于 目录 的 
高 速 缓存 一 致 性 协议 ; 它 的 存储 器 在 物理 上 是 分 布 的 ,所 有 的 局 部 存储 器 构成 了 共享 的 全 
局 地 址 空间 (所 以 它 实 际 上 是 一 个 DSM 系统 ) ,因此 它 保 留 了 SMP 易于 编程 的 优点 。 它 最 
显著 的 优点 是 程序 员 无 须 明确 地 在 节点 上 分 配 数据 ,系统 的 硬件 和 软件 开始 时 自动 在 各 节 
点 分 配 数据 。 在 程序 运行 过 程 中 ,高 速 缓存 一 致 性 硬件 会 自动 地 将 数据 移 至 需要 它 的 地 方 。 
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CC-NUMA 和 COMA 的 共同 特点 是 它们 都 对 高 速 缓存 一 致 性 提供 硬件 支持 ,而 在 另 一 种 
访 存 模型 NCC-NUMA(Non-Cache Coherent Non-Uniform Memory Access) 中 , 则 没有 对 
高 速 缓存 的 一 致 性 提供 硬件 支持 。 

在 支持 远程 节点 内 存 访问 和 统一 访问 地 址 空间 的 UMA 和 NUMA 架构 之 外 ,还 有 一 
大 类 不 支持 远程 节点 内 存 访问 的 结构 , 称 为 NORMA(No-remote Memory Access) 结 构 , 这 
类 结构 的 显著 特点 如 下 。 

(1) 每 个 节点 的 内 存 都 是 和 有 的 ,地 址 空间 也 各 自 不 同 , 没 有 统一 存储 访问 地 址 。 

(2) 不 支持 远程 节点 的 内 存 访问 。 

(3) 节点 间 的 通信 采用 消息 传递 方式 。 

UMA 和 NUMA 采用 的 是 共享 内 存 架构 ,而 NORMA 则 是 基于 同一 总 线 (Interconnect 
Network) 把 所 有 的 独立 计算 节点 连接 起 来 的 分 布 式 内 存 架构 ,其 关键 区 别 在 于 : 在 共享 内 
存 架构 中 ,数据 一 致 性 由 硬件 专门 管理 ,而 在 分 布 式 内 存 架 构 中 ,节点 之 间 的 数据 一 致 性 由 
系统 软件 甚至 是 应 用 程序 来 管理 ,这 导致 两 者 的 编程 模型 完全 不 一 样 。 基 于 NORMA 结构 
的 计算 机 体系 又 有 MPP( 大 规模 并 行 计算 ) 和 Cluster( 集 群 ) 架 构 两 大 类 。 

3. MPP( Massive Parallel Processing) 


fll NUMA 不 同 , MPP 提供 了 另外 一 种 由 许多 松 耦 合计 算 单 元 组 成 的 并 行 计算 架构 
这 些 计 算 单元 有 独立 的 存储 和 地 址 空间 ,节点 间 通过 总 线 连接 ,每 个 节点 只 访问 自己 的 本 地 
资源 (内 存 、 存 储 等 ) ,是 一 种 完全 无 共享 (Share Nothing) 结 构 ( 图 12-7) ,因而 扩展 性 非常 
好 。 这 些 独立 的 计算 单元 实际 可 看 作 系统 内 部 的 SMP 机 器 ,它们 通过 节点 网 络 相连 协同 
工作 ,在 外 部 用 户 看 来 构成 一 台 服 务 器 。 与 NUMA 结构 不 同 的 是 ,MPP 不 存在 异地 内 存 
访问 的 问题 。 换 言 之 ,每 个 节点 的 CPU 不 能 访问 另 一 个 节点 的 内 存 。 由 于 没有 硬件 提供 
的 全 局 访问 和 数据 分 配 功能 ,MPP 计算 架构 需要 由 软件 层 提供 平衡 节点 负载 和 调度 并 行 处 
理 任务 的 机 制 , 这 就 导致 MPP 架构 的 编程 模型 较为 复杂 ,应 用 程序 开发 成 本 较 高 ,常常 需 
要 专用 系统 软件 或 中 间 件 的 支持 。 

从 架构 角度 ,NUMA 与 MPP 有 许多 相 r-------------; —— 
似 之 处 : 它们 都 由 多 个 节点 组 成 ,每 个 节点 都 
具有 自己 的 CPU 内存 .IO, 节 点 之 间 都 可 以 
通过 节点 互 连 机 制 进 行 信息 交互 。 它 们 的 主 
要 区 别 在 于 节点 间 互 连 机 制 和 远程 内 存 访 问 
两 个 方面 。NUMA 的 节点 连接 是 在 一 个 物 “| 
理 服务 器 内 部 全 局 实现 的 , 即 一 个 节点 内 的 Custom-Designed Network 
CPU 可 以 访问 其 他 节点 的 内 存 ; 而 MPP 的 
节点 连接 是 在 不 同 的 节点 间 通 过 1/0 外 部 实 giai deir 
现 的 , 即 每 个 节点 的 CPU 只 能 访问 本 节点 内 存 , 节 点 之 外 的 信息 交互 通过 节点 间 的 1/0 来 
实现 。 另 外 ,支持 远程 内 存 访 问 机 制 不 同 。NUMA 服务 器 内 部 任何 一 个 CPU 可 以 访问 整 
个 系统 的 内 存 , 但 远程 访问 的 性 能 远 低 于 本 地 内 存 访问 ,因此 在 开发 应 用 程序 时 应 尽量 避免 
远程 内 存 访 问 。MPP 服务 器 中 的 每 个 节点 只 访问 本 地 内 存 ,不 支持 远程 内 存 访问 。 

总 结 起 来 ,MPP 架构 具有 如 下 特性 。 
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(1) 处 理 节点 采用 商业 处 理 器 ; 

(2) 系统 采用 物理 分 布 的 存储 器 ; 

(3) 节点 通信 采用 高 通信 带宽 和 低 延 迟 的 系统 连接 网 络 ; 

(4) 扩展 性 好 ,能 扩展 至 成 百 上 千 个 处 理 器 ; 

(5) 采用 异步 并 行 计算 模型 ,应 用 程序 系 由 多 个 进程 组 成 ,每 个 进程 都 有 其 私有 地 址 空 
间 , 进 程 间 采 用 消息 传递 。 

4. 集群 (Cluster) 


计算 机 集群 是 由 一 组 独立 的 计算 机 节点 通过 高 速 局 域 网 (Ethernet、.UDDI、ATM 等 ) 连 
接 组 成 的 一 个 松散 耦合 的 分 布 式 计算 系统 ,以 单一 系统 的 模式 对 用 户 提供 服务 。 集 群 中 的 
每 一 个 节点 都 是 一 台独 立 的 计算 机 ,有 自己 的 内 存 、 磁 盘 、1/O 和 网 络 接口 ,是 一 种 完全 的 
Shared Nothing 结构 ,如 图 12-8 所 示 。 集 群 架构 与 MPP 架构 的 差别 在 于 : MPP 的 CPU 多 
采用 专用 芯片 (现在 也 倾向 于 普通 商业 芯片 ) ,连接 网 络 也 是 专用 的 高 通信 带宽 专用 网 络 ; 
而 集群 架构 所 采用 的 机 器 和 连接 网 络 均 为 通用 商业 产品 ,采用 的 是 开放 式 架构 和 标准 。 
MB MB 综合 上 述 ,集群 架构 通常 具有 如 下 特点 。 
us us CD. 系统 由 多 个 独立 的 机 器 (服务 器 或 工作 站 ， 
M dis M 称 为 集群 节点 ) 通 过 高 速 局 域 网 连接 在 一 起 。 每 个 
-Bridge ——] Bridge | 节点 拥有 独立 的 内 存 和 磁盘 ,一 个 节点 的 CPU 不 能 
LD 10M LD 10M 直接 访问 另外 一 个 节点 的 内 存 。 
NIC NIC (2) 每 个 节点 拥有 独立 的 O/S 和 文件 系统 ,可 
进行 本 机 独立 的 1/0 操作 。 
商用 网 络 (3) 节点 间 支 持 消息 传递 方式 的 数据 交换 ,使 
图 12-8 集群 体系 结构 用 如 MPI.PVM 等 中 间 件 支持 并 行 计算 模式 。 
(4) 在 节点 内 部 (本 地 机 器 上 ) 支 持 共享 内 存 方 
式 的 并 行 计算 模式 ,可 使 用 OpenMP、pthreads 等 编程 模型 。 
(5) 需要 一 系列 集群 平台 软件 来 支持 整个 系统 的 管理 与 运行 ,包括 集群 系统 管理 软件 
(如 IBM 的 CSM, xCat 等 ) .消息 中 间 件 (如 MPI,PVM 等 ) ,作业 管理 与 调度 系统 (如 LSF, 
PBS,LoadLeveler) ,并 行文 件 系统 (如 PVFS、GPFS 等 ) 。 
(6) 性 能 价格 比 好 。 














































































































12.2 MapReduce 计算 架构 


MapReduce" jÈ Google 公司 提出 的 一 种 面向 大 规模 海量 数据 处 理 的 高 性 能 并 行 计 算 
平台 和 软件 编程 框架 ,是 目前 最 为 成 功 和 最 易于 使 用 的 大 规模 数据 并 行 处 理 技术 ,广泛 应 用 
于 搜索 引擎 (文档 倒 排 索引 ,网 页 链接 图 分 析 与 页 面 排序 等 )、Web 日 志 分 析 、 文 档 分 析 处 
理 、 机 器 学 习 、 机 器 翻译 等 各 种 大 规模 数据 领域 。MapReduce 属于 MIMD 类 型 ,是 一 种 运 
行 在 Hadoop 集群 架构 上 的 并 行 计算 编程 模型 。 分 布 式 文件 系统 HDFS 和 并 行 编程 模型 
MapReduce 构成 了 大 数据 计算 平台 Hadoop 的 两 个 核心 功能 模块 ,提供 了 在 普通 商业 集群 
上 完成 大 数据 集 计 算 处 理 的 能 力 。 
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作为 一 种 分 布 式 并 行 计算 模型 ,MapReduce 可 支持 如 下 的 算法 并 行 实现 和 应 用 类 型 。 

CD 分 布 式 排序 算法 ; 

(2) 分 布 式 GREP( 文 本 匹配 查找 ); 

(3) 关系 代数 操作 (选择 .投影 . 求 交 集 .并 集 等 ); 

CD 矩阵 向 量 相 乘 ， 

(5) 词 频 统计 (Word Count) , 词 频 重要 性 分 析 (TF-IDF); 

(6) 词 频 同 现 关系 分 析 ; 

C) 文档 倒 排 索引 ， 

(8) 聚 类 算法 (文档 聚 类 、 图 聚 类 其 他 数据 集聚 类 ); 

(9) 图 算法 (并 行 化 BFS( 宽 度 优先 搜索 )、 最 小 生成 树 、 子 树 搜索 与 比 对 、PageRank、 垃 
圾 邮件 链接 分 析 ); 

(10) 搜索 引擎 (网 页 抓 取 、 倒 排 索引 、 网 页 排序 ,搜索 算法 ); 

(11) Web 日 志 分 析 ( 统 计 分 析 、 挖 气 用 户 Web 访问 ,行为 特征 ,进行 个 性 化 定制 或 者 定 
点 广告 投放 ); 

(12) 数据 /文本 分 析 ( 如 科技 文献 引用 关系 分 析 和 统计 、 专 利文 献 引 用 分 析 与 统计 ); 

(13) 电子 商务 数据 挖掘 (客户 数据 .订单 数据 ,供应 链 管 理 、 精 准 营销 ); 

(14) 社交 类 应 用 。 

MapReduce 计算 模型 借鉴 了 函数 型 语言 (如 LISP) 中 的 内 置 函 数 map 和 reduce 的 概 
念 , 其 本 质 思想 是 基于 分 治 法 (Divide-and-Conquer)52 巧 将 大 数据 集 划分 为 小 数据 集 , 小 数 
据 集 划 分 为 更 小 数据 集 ,将 最 终 划 分 的 小 数据 分 布 到 集群 节点 上 以 并 行 方式 完成 计算 处 理 ， 
然后 再 将 计算 结果 递归 融 汇 ,得 到 最 后 结果 。Hadoop 提供 了 MapReduce 计算 模型 的 开源 
实现 ,给 MapReduce 应 用 程序 开发 提供 了 封装 良好 、 易 于 使 用 的 编程 接口 。 

图 12-9 描述 了 Hadoop 集群 上 MapReduce 的 计算 架构 ,主要 包括 以 下 4 个 组 件 
(Hadoop 2. 0 以 后 引入 了 集群 管理 器 YARN ,运行 在 YARN 之 上 的 MapReduce 的 架构 
见 图 12-10. Ef] YARN/MapReduce 运行 模式 见 11. 5. 3 W). 
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图 12-9 MapReduce 计算 架构 
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MapReduce Status ————*» 
Job Submission > 
Node Status 
Resource Request ......- 





图 12-10 YARN 之 上 的 MapReduce 软件 架构 


1. Client 

用 户 编写 的 MapReduce 程序 通过 Client 提交 到 JobTracker 端 ,用 户 可 通过 Client 提 
供 的 一 些 接口 查看 作业 运行 状态 。 

2. JobTracker 

运行 在 NameNode 节点 上 ,提供 集群 资源 的 调配 和 作业 调度 管理 ,监控 所 有 Task Tracker 
与 作业 的 运行 状况 ,一 旦 发 现 失 败 , 就 将 相应 的 任务 转移 到 其 他 节点 。JobTracker 还 会 跟 
踪 任 务 的 执行 进度 ,资源 使 用 率 等 信息 ,并 将 这 些 信 息 告 诉 任务 调度 器 (TaskScheduler) ,让 
调度 器 在 资源 出 现 空闲 时 ,选择 合适 的 任务 去 使 用 这 些 资源 。 

3. TaskTracker 

运行 在 DataNode 上 .具体 管理 本 节点 计算 任务 的 执行 。TaskTracker 会 周期 性 地 通过 
“心跳 ”将 本 节点 资源 的 使 用 情况 和 任务 运行 进度 汇报 给 JobTracker, 同 时 接收 JobTracker 
发 送 过 来 的 命令 并 执行 相应 的 操作 (如 启动 新 任务 、 杀 死 任务 等 )。TaskTracker 使 用 Slot 
等 量 划分 本 节点 上 的 资源 (CPU、 内 存 等 )。 一 个 Task 获取 到 一 个 Slot 后 才 有 机 会 运行 ， 
Slot 分 为 Map Slot 和 Reduce Slot 两 种 ,分 别 供 Map Task 和 Reduce Task 使 用 。 

4. Task 

Task 分 为 Map Task 和 Reduce Task 两 种 , 均 由 TaskTracker 启动 。 

MapReduce 计算 模型 中 主要 任务 有 两 类 : Map( 映 射 ) 和 Reduce( 简 化 ) ,前 者 负责 输入 
数据 的 分 片 . 转 化 .处理 ,输出 中 间 结 果 文 件 ; 后 者 以 前 者 的 输出 文件 为 输入 ,对 中 间 结 果 进 
行 合并 处 理 , 得 到 最 终结 果 并 写 人 HDFS。 这 两 类 任务 都 有 多 个 进程 运行 在 DataNode 上 ， 
相互 间 通 过 Shuffle 阶段 交换 数据 ,如 图 12-11 Bron 
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图 12-11 运行 在 节点 上 的 Map 和 Reduce 进程 


12.3 键 值 对 与 输入 格式 


MapReduce 计算 模型 是 以 键 值 对 格式 来 完成 数据 计算 处 理 的 。MapReduce 处 理 的 输 
入 文件 格式 可 以 是 text 文件 .表格 文件 二进制 格式 文件 ,或 是 其 他 用 户 定义 格式 文件 ,但 
在 计算 过 程 中 MapReduce 是 以 键 值 对 (Key， Value) 的 形式 调用 缓存 .处 理 文件 数据 的 。 

所 谓 键 值 对 就 是 由 “ 键 ”(Key) 和 “ 值 *(Value) 组 成 的 一 个 二 元 组 结构 (Key, Value)。 
键 是 行 键 (RowKey) ,多 半 用 作 索 引 ; 值 是 字符 串 或 二 进 制 数组 形式 ,包含 存储 数据 或 信息 。 
需要 注意 , 键 (Key) 可 以 是 基础 型 数据 如 整数 、 浮 点 数 、 字 符 串 或 未 经 加 工 的 字 节 数组 ,也 可 
以 是 任意 形式 的 用 户 数 据 类 型 ,用 户 可 借助 于 Protocol Buffer、Thrift 或 Avro 这 类 工具 完 
成 数据 类 型 定义 。 下 面 是 一 些 键 值 对 的 例子 。 

(123,“ 文 件 序列 编号 ”) 

Chelon om d5 15d d 159) 

(579. 12. *aabbccddeeffgghhiijj kk" ) 

(*name-0001"."hsget524 £t ** juyfyf...") 

1. 文件 分 片 

MapReduce 处 理 的 数据 是 以 文件 形式 从 HDFS 读 入 ,出 于 并 行 计算 的 需要 ,MR 要 把 
大 数据 文件 进行 分 片 ,生成 一 个 个 InputSplit( 简 称 为 Split) ,而 一 个 InputSplit 对 应 一 个 计 
算 任 务 (Task) ,分 配 到 计算 节点 (DataNode) 由 Map/Reduce 进程 执行 计算 处 理 。Split 是 
我 们 对 数据 文件 出 于 计算 需要 的 逻辑 划分 单位 ,但 一 个 HDFS 文件 在 集群 中 实际 是 以 块 
(Block) 的 物理 形式 存储 的 ,Split 与 Block 的 对 应 关系 是 如 何 的 呢 ? 

早期 的 Hadoop 版 本 Block Size 的 默认 值 为 64MB. Hadoop 2. 0 之 后 Block Size 默认 
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值 设置 为 128MB。 可 以 在 hdfs-site. xml 文件 中 设置 Block Size 的 默认 值 dfs. block. size 


(注意 单位 是 Byte) 。 


MapReduce 的 分 片 (Split) 只 是 一 个 逻辑 概念 ,包含 一 些 元 数据 信息 ,比如 数据 起 始 位 
置 .数据 长 度 .数据 所 在 节点 等 ,Split Size 的 值 可 以 在 mapred-site. xml 文件 中 设置 : 

mapred. min. split. size 可 设置 Split Size 的 最 小 值 。 

mapred. max. split. size 可 设置 Split Size 的 最 大 值 。 


而 系统 默认 值 minSplitSize = 1B. maxSplitSize 为 Long; MAX _ VALUE 


9223372036854775807 。 


最 后 MapReduce 按 如 下 方式 确定 split size 的 值 : 


minSize = max(minSplitSize,mapred. min. split. size) 
maxSize = mapred. max. split. size 
splitSize = max{minSize, min{maxSize, blockSize]] 


一 般 而 言 ,我 们 选用 与 Block Size 相同 的 Split Size( 图 12-12 Ca) ) ,但 也 可 选用 不 同 的 


Split Size( 图 12-12(b)) 。 
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(a) Split 与 Block 的 大 小 相同 


以 划分 成 多 个 Blocks, 如 Block 1. Block 2，… 


(b) Split 与 Block 的 大 小 不 同 


图 12-12 分 片 (Split) 的 大 小 确定 


图 12-13 很 好 地 描述 了 文件 块 (Block) 与 文件 分 片 (Split) ,以 及 文件 块 在 Hadoop 集 
群 节点 上 存储 的 方式 。 一 个 HDFS 文件 可 以 按 Block 形式 进行 物理 存储 , 即 一 个 文件 可 


，Block 6, 而 每 个 Block 都 可 以 有 多 个 副本 


存储 在 不 同 的 DataNode 上 (比如 Block 4 的 三 个 副本 就 分 别 存储 在 DataNodel , 


DataNode5 ,DataNode6 E). mi Split 只 


是 一 个 逻辑 上 对 HDFS 文件 的 划分 方式 ,Split 与 


Block 可 以 是 同样 大 小 一 一 对 应 关系 (图 12-12(a)), 也 可 以 是 大 小 不 一 样 、 不 一 一 对 应 
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图 12-13 分 块 (Block)vs. 分 片 (Split) 
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的 关系 (图 12-12(b))。 总 之 ,Block 是 HDFS 的 物理 存储 单元 ,而 Split 是 MapReduce 的 
计算 逻辑 单元 。 

2. map 数目 设置 

在 Split 与 Block 大 小 不 同时 ,Hadoop 另外 提供 了 一 种 设置 map 数目 的 方法 。 首 先 可 
以 通过 设置 参数 mapred. map. tasks 来 确定 map 的 数目 (要 注意 的 是 ,通过 这 种 方式 设置 
map 数目 并 不 是 每 次 都 有 效 , 原 因 是 mapred. map. tasks 只 是 Hadoop 用 的 一 个 系统 参考 
值 ,Hadoop 可 能 因为 其 他 重要 因素 重 设 map 的 数目 ) 。 另 外 ,MapReduce 会 遵循 如 下 的 步 
又 来 计算 出 map 的 数目 。 

先 定义 如 下 几 个 参数 。 

block size: HDFS 文件 的 Block Size, 默 认为 64MB(Hadoop 2. 0 以 后 为 128MB) ,可 以 
通过 参数 dfs. block. size 设置 。 

total_size: 输入 文件 整体 的 大 小 。 

input file num: 输入 文件 个 数 。 

(1) 使 用 默认 map 数 。 

如 果 不 进 行 任何 设置 ,默认 的 map 数 由 blcok_size 决定 : 


default num = total size / block size; 


(2) 预 设 map 数目 。 
可 通过 参数 mapred. map. tasks 来 设置 期 望 的 map 数目 ,但 是 这 个 数 只 有 在 大 于 
default num 的 时 候 才 会 生效 。 


goal num = mapred. map. tasks; 


(3) 设置 分 片 大 小 (Split Size) 。 
可 以 通过 mapred. min. split. size 设置 每 个 Task 处 理 的 Split 的 大 小 ,但 是 这 个 大 小 只 
有 在 大 于 block size 的 时 候 才 会 生效 。 


split size = max(mapred.min.split.size, block size); 
split num - total size / split size; 


(4) 计算 map 数目 。 
compute map num = min(split num, max(default num, goal num)) 


(5) 每 一 个 map 处 理 的 分 片 是 不 能 跨越 文件 的 ,也 就 是 说 min map. num input file 
_num。 所 以 ,最 终 的 map 个 数 应 该 为 : 


final map num = max(compute map num, input file num) 


通过 以 上 分 析 , 设 置 map 数目 的 准则 可 以 简单 地 归纳 为 以 下 几 点 。 

(1) 如 果 想 增加 map 个 数 , 则 设置 mapred. map. tasks 为 一 个 较 大 的 值 ; 

(2) 如 果 想 减 小 map 个 数 , 则 设置 mapred. min. split. size 为 一 个 较 大 的 值 ; 

(3) 如 果 输 入 中 有 很 多 小 文件 ,依然 想 减 少 map 数目 , 则 需 将 小 文件 merge 为 大 文件 
(调用 CombineFileInputFormat 方法 ) ,然后 使 用 第 二 点 准则 。 


e 
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3. 输入 格式 处 理 


上 面 讨 论 了 MapReduce 中 输入 文件 的 分 片 方法 ,即将 大 数据 文件 划分 为 规定 大 小 的 
Split ,分 发 给 map 程序 执行 。 但 前 面 说 过 ,输入 文件 可 以 是 text 文件 .表格 文件 .二进制 格 
式 文件 各 种 格式 ,但 MapReduce 计算 是 基于 键 值 对 格式 (Key，Value) 的 计算 处 理 , 这 就 需 
要 MapReduce 提供 将 不 同 格式 数据 转换 为 键 值 表 的 步骤。 事实 上 ,MR 提供 了 一 个 基础 类 
InputFormat 类 (图 12-14) 来 定义 如 何 读 入 分割 和 计算 输入 文件 , 它 提供 了 下 面 的 几 个 
功能 。 

(1) 选择 作为 输入 的 文件 或 对 象 ; 

(2) 提供 把 文件 分 片 的 InputSplits 〇 方法 ; 

(3) 为 RecordReader 读 取 文件 提供 一 个 工厂 模式 方法 。 
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图 12-14 输入 数据 格式 


自 InputFormat 以 下 Hadoop 提供 了 几 个 抽象 类 FileInputFormat、ComposableInputFormat、 
DBInputFormat 来 支持 各 种 数据 文件 的 读 人 处 理 。 当 开启 Hadoop 作业 时 ,FileInputFormat 会 
得 到 一 个 路 径 参 数 ,这 个 路 径 内 包含 需要 处 理 的 文件 ,FileInputFormat 会 读 取 这 个 文件 夹 
内 的 所 有 文件 ( 注 : 默认 不 包括 子 文件 夹 内 的 文件 ) ,然后 它 会 把 这 些 文件 拆 分 成 一 个 或 多 
个 的 split。 

FileInputFormat 默认 的 输入 格式 是 text, 归 TextInputFormat 处 理 , 它 把 输入 文件 的 
每 一 行 作为 单独 的 一 个 记录 ,每 一 行 的 字 节 偏 移 量 作为 行 键 , 而 这 一 行 整个 字符 串 作 为 值 ， 
不 做 解析 处 理 , 这 对 那些 没有 被 格式 化 的 数据 或 是 基于 行 的 记录 (比如 日 志文 件 ) 来 说 是 很 
有 用 的 。 

另 一 个 有 趣 的 输入 格式 是 KeyValueInputFormat。 这 个 格式 也 是 把 输入 文件 每 一 行 作 
为 单独 的 一 个 记录 ,然而 不 同 的 是 KeyValueInputFormat 则 是 通过 搜寻 这 一 行 中 的 tab 字 
符 (“/t”) 来 把 行 拆 分 为 键 值 对 ,tab 字符 之 前 的 字符 串 作 为 行 键 , 之 后 的 部 分 则 作为 值 。 这 
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在 把 一 个 MapReduce 的 作业 输出 作为 下 一 个 作业 的 输入 情形 下 特别 有 用 ,因为 map 的 默 
认输 出 格式 (后 面 描述 ) 正 是 按 KeyValueInputFormat 的 格式 。 

SequenceFileInputFormat 则 用 于 读 取 特殊 的 Hadoop 的 二 进 制 文件 ,这 些 文件 包含 能 
让 mapper 快速 读 取 数 据 的 特性 。Hadoop 的 Sequence 文件 是 块 压缩 的 并 提供 了 对 几 种 数 
据 类 型 (不仅 是 文本 类 型 ) 直接 的 序列 化 与 反 序列 化 操作 , Squence 文件 可 以 作为 
MapReduce 作业 的 中 间 数 据 格式 。 

K 12-1 给 出 了 MapReduce 标准 的 输入 格式 和 转换 成 键 值 对 的 方法 。 

上 述 MapReduce 输入 数据 格式 转换 为 键 值 对 格式 的 工作 实际 上 是 由 记录 读 取 器 
(RecordReader) 完 成 的 。 在 确定 了 输入 文件 的 分 片 CSplit) 后 ,RecordReader 类 则 被 用 来 加 
载 分 片 数据 并 把 其 格式 转换 为 适合 Mapper 处 理 的 键 值 对 格式 ( 表 12-1 所 描述 的 )。 
RecordReader 实体 (Instance) 是 按 输入 格式 来 生成 的 ,默认 的 输入 格式 为 TextInputFormat ,对 
应 有 一 个 LineRecordReader. 它 会 把 输入 文件 的 每 一 行 字符 string 转换 成 一 个 (Key， 
Value) 键 值 对 , 行 键 (Key) 是 该 行 在 文件 中 的 字 节 偏 移 量 , 列 值 (Column Value) 则 是 这 一 行 
完整 字符 串 。RecordReader 会 在 分 片 (Split) 上 循环 调用 直到 整个 split 被 处 理 完毕 ,每 一 
次 调用 RecordReader 时 都 会 调用 Mapper 的 map() 方 法 对 生成 的 (Key，Value) 键 值 对 进 
行 处 理 。 

表 12-1 MapReduce 标准 输入 格式 
输入 格式 描 述 值 














_TextInputFormat J 默认 格式 , 读 取 文件 的 行 行 字符 串 内 容 

E 行 剩 下 的 字符 
KeyValueInputFormat 把 行 解 析 为 键 值 对 前 的 所 有 字符 BAS 
SequenceFileInputFormat Hadoop 定义 的 二 进 制 格式 用 户 自 定义 用 户 自 定义 





是 SequenceFileInputFormat 的 变 
体 , 它 将 键 和 值 的 顺序 值 转换 为 
SequenceFileAsTextInputFormat text。 转 换 的 时 候 会 调用 键 和 值 
的 toString 方法 。 这 个 格式 可 以 
是 顺序 文件 作为 流 操作 的 输入 
SequenceFileAsBinaryInputFormat 
是 SequenceFileInputFormat fj 5j 
一 种 变 体 , 它 将 顺序 文件 的 二 进 制 
格式 键 和 值 封装 为 BytesWritable 
对 象 ,应 用 程序 可 以 任意 地 将 这 些 
字 节 数组 解释 为 需要 的 类 型 
DBInputForma 是 使 用 JDBC 并 且 
从 关系 数据 库 中 读 取 数据 的 一 种 
输入 格式 。 由 于 它 没有 任何 碎片 
技术 ,所 以 在 访问 数据 库 的 时 候 必 
须 非常 小 心 , 太 多 的 mapper 可 能 
会 使 数据 库 受 不 了 。 因 此 
DBInputFormat 最 好 在 加 载 小 量 
数据 集 的 时 候 用 
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12.4 映射 与 化 简 


在 客户 端的 MapReduce 作业 提交 给 JobTracker 或 Resource Manager, 完 成 输入 数据 
文件 的 分 片 (Split) 后 ,MapReduce 计算 引擎 即 启动 如 图 12-15 所 示 的 计算 处 理 流 程 ,这 一 
工作 流程 主要 包括 如 下 步骤 。 

(1) Resource Manager 给 提交 的 客户 端 MapReduce 作业 配置 相应 的 计算 资源 (以 
Container 形式 ) 并 启动 多 个 工作 线程 Worker, 一 部 分 Worker 将 承担 Map 任务 (这 部 分 
Worker 可 称 为 Mapper) , 另 一 部 分 Worker 将 承担 Reduce 任务 (这 部 分 Worker nf f Jg 
Reducer), 

(2) 对 应 每 一 个 split, Application Master 会 生成 一 个 Map 任务 ,然后 分 派 一 个 
Mapper 去 执行 该 Map 任务 ; Application Master 也 会 生成 一 定数 目的 Reduce 任务 分 派 给 
Reducer 去 执行 。Reduce 任务 个 数 取决 于 集群 中 可 用 的 Reduce 任务 槽 (Slot) 的 数目 ,通常 
设置 得 比 Slot 数目 小 一 些 , 这 样 可 以 预 留 一 些 资源 处 理 可 能 发 生 的 错误 。 

(3) Mapper 读 取 分 派 给 它 的 输入 数据 Split, 并 生成 相应 的 键 值 表 。 

(4) Mapper 执行 计算 处 理 任务 ,将 中 间 结 果 输 出 保存 在 本 地 缓存 。 

(5) Application Master 调度 Reducer 读 取 Mapper 的 中 间 输 出 文件 ,执行 Reduce 
任务 。 

(6) Reducer 将 最 后 结果 写 人 输出 文件 保存 到 HDFS。 
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图 12-15 MapReduce 工作 流程 
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上 述 MapReduce 工作 流程 虽然 描述 了 主要 执行 步骤 ,但 MapReduce 源 代码 实际 上 是 
按 以 下 三 个 阶段 来 组 织 运算 过 程 的 (如 图 12-16 所 示 )。 

(1) Map( 上 映射 ): Mapper 执行 Map Task, 将 输出 结果 写 和 人 中间 文件 。 

(2) Shuffle( 归 并 ): 把 Mapper 的 输出 数据 归并 整理 后 分 发 给 Reducer 处 理 , 包 括 


Merge, Combine, Sort 和 Partition 几 个 步骤 。 
(3) Reduce( 化 简 ) : Reducer 执行 Reduce Task ,将 最 后 结果 写 和 人 HDFS, 
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图 12-16 MapReduce 流程 的 三 个 阶段 


1. Map( 映 射 ) 阶 段 

对 于 每 一 个 Split, 系统 都 生成 一 个 Map Task ,调用 Mapper 来 执行 ,将 读 入 数据 转换 成 
键 值 对 格式 ,完成 计算 处 理 后 ,将 输出 结果 写 入 中 间 文 件 。 一 个 Map 任务 可 以 在 集群 的 任 
何 计算 节点 上 运行 ,多 个 Map 任务 可 以 并 行 地 运行 在 集群 上 。Mapper 类 的 核心 代码 如 下 面 
所 示 ,程序 员 需 要 将 具体 的 工作 内 容 写 入 Mapper 的 map() 方 法 。 从 Mapper 的 代码 可 看 出 ， 
Mapper 的 输入 数据 来 自 于 MapContext. 而 MapContext 的 实现 则 依赖 于 MapContextImpl, 在 
MapContextImpl 内 部 实际 上 组 合 了 两 个 类 InputSplit 和 RecordReader ,提供 了 读 取 和 封装 


输入 数据 键 值 对 (Key,Value) 的 方法 。 


public class Mapper { 
/ *** The Context passed on to the {@link Mapper} implementations. * / 


public abstract class Contextimplements MapContext { 
) 

/ *** Called once at the beginning of the task. * / 

protected void setup(Context context) throws IOException, InterruptedException { 
/ / NOTHING 


) 
/ *** Called once for each key/value pair in the input split. Most applications * should 


override this, but the default is the identity function. * / 

(à SuppressWarnings("unchecked")protected void map(KEYIN key, VALUEIN value, 

Context context) throws IOException, InterruptedException ( context. write((KEYOUT) key, 
(VALUEOUT) value); 


) 
/ *** Called once at the end of the task. */ 
protected void cleanup(Context context) throws IOException, InterruptedException ( 


/ / NOTHING 
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/ *** Expert users can override this method for more complete control over the * execution of 
the Mapper. * (param context * (throws IOException * / 
public void run(Context context) throws IOException, InterruptedException ( 
setup(context) ; 
try { 
while (context. nextKeyValue()) ( 
map(context.getCurrentKey(), context.getCurrentValue(), context); 
} 
} finally { 
cleanup(context); 
} 
} 
) 


图 12-17 表示 了 多 个 节点 (节点 1 和 节点 2) 上 的 Map/Shuffle/Reduce 流程 ,从 图 中 可 


看 出 ,不 同 节点 上 运行 的 Map 任务 都 将 其 输出 结果 提交 给 了 下 一 阶段 Shuffle, 由 Shuffle 
进程 完成 Map 输出 的 归并 排序 ,然后 分 发 给 Reducer。 这 就 需要 了 解 Shuffle 阶段 中 间 数 
























































































































据 是 如 何 处 理 和 分 发 的 。 
节点 1 节点 2 
从 分 布 式 文件 系统 中 加 载 文件 从 分 布 式 文件 系统 中 加 载 文 件 
InputFormat InputFormat 
Split | | Split | [ Split Split | | Split | | Split 
H 输入 RR RR RR RR RR RR 输入 i 
| <Key,Value> 1 1 i 1 1 1 <Key,Value> i 
Mi Mi Mi Mi 

! Map | | Map ap ap ap ap ! 

| 中 间 结 果 ~ i z 中 间 结果 | 

| «Key, Value» [ rume Suse ] KeValue> ! 
1 

1 

| <Key,Value-list> sae ! «Key. Value-list | 
1 

i Reduce Reduce | 

! 最 终结 果 最 终结 果 ! 

! 写 入 到 分 布 ”<Key,Value> «Key, Value» 1 写 入 到 分 布 | 

1 式 文件 系统 式 文件 系统 

Eq 各 HDFS) OutputFormat guns (DEDES) ! 


























图 12-17 多 节点 上 的 Map/Shuffle/Reduce 步骤 


2. Shuffle 归并) 阶段 
Shuffle 阶段 的 主要 任务 是 将 每 个 Map Task 的 输出 结果 进行 归并 、 排 序 ,然后 按照 一 
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定 的 规则 分 发 给 Reducer 去 执行 化 简 步 又 。Shuffle 任务 实际 上 涉及 Map 阶段 的 输出 ,以 
及 Reduce 阶段 的 输入 ,因此 可 以 把 Shuffle 阶段 分 成 两 个 部 分 : Map 相关 部 分 和 了 Reduce 相 


关 部 分 ,如 图 12-18 所 示 。 
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图 12-18 Shuffle 阶段 的 两 个 部 分 


1) Map 端的 Shuffle 


每 个 Map Task 都 开 有 一 个 环形 内 存 缓冲 区 存储 Map 的 中 间 输 出 结果 ,缓冲 区 默认 大 
小 是 100MB, 并 且 在 配置 文件 里 为 这 个 缓冲 区 设 定 了 一 个 阔 值 (默认 是 0. 80) ,缓冲 区 大 小 
和 彰 值 都 是 可 以 在 配置 文件 里 进行 设置 的 。Map 在 运行 时 会 同时 启动 一 个 输出 操作 的 守 
护 线程 ,如 果 缓 冲 区 的 存储 量 达 到 了 阔 值 (如 80%) ,这 个 守护 线程 就 会 开始 把 缓冲 区 内 容 
写 到 磁盘 上 ,这 个 过 程 叫 Spill。 整 个 Map Task 结束 后 ,Shuffle 会 对 磁盘 中 这 个 Map Task 
产生 的 所 有 临时 文件 做 归并 ,生成 Map 的 正式 输出 文件 ,然后 Reducer 会 来 读 取 这 个 中 间 


文件 作为 Reduce Task 的 输入 文件 。 


具体 而 言 ,Shuffle 对 Map 的 中 间 输 出 需要 完成 如 下 4 个 步骤 (如 图 12-19 所 示 )。 


(1) Mapper 从 HDFS 读 取 Split, 然 后 执行 map() 。 

(2) map() 的 输出 是 (Key, Value) 中间 键 值 对 。 
MapReduce 提供 Partitioner 接口 ,其 作用 为 根据 Key 
或 Value 以 及 Reducer 数量 来 对 输出 中 间 键 值 表 进行 划 
分 并 决定 交 由 哪个 Reduce Task 来 处 理 。 默 认 方式 是 
对 Key 的 值 哈 希 后 再 以 Reduce Task 数 取 模 , 以 决定 
Reduce Task 序号 。 默 认 的 取 模 方式 只 是 为 了 平衡 
Reduce Task 的 负载 ,如 果 用 户 自己 对 Partitioner 有 特 
定 要 求 ,可 以 自己 设置 。 





(3) 接 下 来 需要 将 中 间 数 据 写 人 内存 缓冲 区 。 如 前 
所 述 ,如果 缓冲 区 数据 量 达 到 阔 值 (默认 80%) ,spill 线 
程 启动 执行 溢 写 过 程 。spill 线程 启动 后 需要 对 缓冲 区 
的 数据 做 基于 Key 值 的 排序 (Sort) 。 如 果 client 设置 过 
Combiner, 那 么 Combiner 就 会 将 相同 Key 值 的 Value 
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图 12-19 Map 端的 Shuffle 步骤 
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加 起 来 ,合并 键 值 对 ,减少 溢 写 到 磁盘 的 数据 量 。Combiner 会 优化 MapReduce 的 中 间 过 
程 ,所 以 它 在 整个 模型 中 会 多 次 使 用 。 

(4) 每 次 spill 操作 都 会 在 磁盘 上 生成 一 个 溢 写 文件 ,如 果 Map 的 输出 结果 很 大 ,会 有 
多 次 spill 操作 发 生 ,磁盘 上 相应 地 就 会 有 多 个 溢 写 文件 。 当 Map Task 完成 时 ,需要 将 全 
部 滋 写 文件 归并 到 一 起 合成 一 个 溢 写 文件 ,这 个 过 程 叫 作 Merge( 归 并 )。 合 并 (Combine) 
和 归并 (Merge) 的 区 别 : 三 个 键 值 对 <“a”，1 >,<“a”, 1 >,<“a”, 2 >, 如 果 合 并 ,会 得 到 
<“a”, 4>, 如 果 归 并 ,会 得 到 <“a”, <1, 1.227. 

至 此 ,Map 端的 所 有 工作 都 已 结束 ,最 终生 成 的 这 个 输出 文件 也 存放 在 TaskTracker 
能 够 读 到 的 某 个 本 地 目录 内 。 每 个 Reduce Task 不 断 地 通过 RPC 从 JobTracker 那里 获取 
Map Task 是 否 完成 的 信息 ,如 果 Reduce Task 得 到 通知 某 个 TaskTracker 上 的 Map Task 
已 执行 完成 ,与 Reduce 相关 的 Shuffle 后 半 段 即 启动 。 

2) Reduce 端的 Shuffle 

Reduce 端的 Shuffle 工作 如 图 12-20 所 示 ,具体 步骤 如 下 。 

(D Copy 领取 数据 。Reducer 进程 会 启动 一 些 数 据 复制 线程 (Fetcher) ,通过 HTTP 
方式 向 TaskTracker 请 求 获取 Map 的 输出 文件 。 因 为 Map Task 已 结束 ,这 些 输出 文件 存 
在 本 地 磁盘 归 TaskTracker 管理 。 

(2) Merge 归并 数据 。 从 不 同 Map Task 中 间 输 出 文件 拷贝 过 来 的 数据 先 放 入 内 存 组 
冲 区 中 ,这 里 的 缓冲 区 大 小 设置 比 Map 端 更 为 灵活 , 它 基 于 JVM 的 heap size 设置 ,因为 
Shuffle 阶段 Reducer 不 运行 ,所 以 可 以 把 大 部 分 的 内 存 都 给 Shuffle 使 用 。 这 里 的 Merge 
有 三 种 形式 : 内 存 到 内 存 ; @ 内 存 到 磁盘 ; @ 磁 盘 到 磁盘 。 默 认 情 况 下 第 一 种 形式 不 启 
用 。 当 内 存 中 的 数据 量 到 达 一 定 阔 值 ,就 启动 第 二 种 形式 : 内 存 到 磁盘 的 Merge, 与 Map 
端 类 似 , 也 是 洲 写 的 过 程 ,这 个 过 程 中 如 果 设 置 有 Combiner, 还 会 进行 合并 。Merge 和 
Combine 过 程 会 在 磁盘 中 生成 多 个 溢 写 文件 。Map 端 数据 全 部 读 完 后 ,启动 第 三 种 磁盘 到 
磁盘 的 Merge 方式 归并 成 一 个 溢 写 文件 。 

当 Map 端的 输出 数据 量 很 小 时 ,上 述 Merge 和 Combine 过 程 产生 的 合并 文件 并 不 需 
要 溢 写 到 磁盘 (内 存 中 数据 量 没 有 达到 阔 值 ,不 启动 溢 写 线程 ) ,而 是 留 在 内 存 缓 冲 区 中 等 待 


Reducer 读 取 , 这 样 可 以 改进 系统 性 能 。 
(3) 最 后 的 归并 文件 (可 能 在 磁盘 上 ,也 可 以 在 内 存 缓 冲 区 中 ) 作 为 Reducer 的 输入 文 
件 发 送 给 Reducer 执行 ,最 后 输出 结果 存 人 HDFS。 


> 







Task Tracker 


ORI Raw H 
y Reduce Task H 
Input H 


12-20 Reduce 端的 Shuffle 步骤 
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在 Reduce 阶段 ,首先 将 多 个 Map 任务 的 输出 结果 按照 不 同 的 分 区 拷贝 到 不 同 的 
Reduce 节点 执行 Reduce Task, 一 个 MapReduce 作业 的 Reduce Task 的 数目 是 通过 配置 
mapreduce. job. reduces 参数 设置 的 。 每 个 Reduce Task 都 会 创建 一 个 Reducer 实例 ,通过 
执行 Reducer 的 reduce() 方 法 将 来 自 不 同 Map 的 具有 相同 的 Key 值 的 键 值 对 进行 合并 处 
理 , 程 序 员 也 可 以 将 自己 设计 的 化 简 处 理 规则 写 入 到 reduce() 方 法 中 去 执行 。 

Reducer 会 通过 调用 OutputCollector 类 将 它 所 完成 的 化 简 结果 写 入 HDFS 文件 系统 ， 
输出 文件 格式 由 OutputFormat 类 来 控制 , 它 的 作用 与 Map 输入 文件 格式 类 
InputputFormat 相似 。 输 出 数据 格式 及 其 相关 类 见 图 12-21。 默 认 的 输出 格式 是 text( 使 
用 TextOutputFormat , 它 会 以 一 行 一 个 键 值 对 的 方式 把 数据 写 和 一 个 文本 文件 。Reducer 
可 使 用 的 其 他 输出 格式 见 表 12-2。 





OutputFormat<K, V> 
org.apache.hadoop.mapreduce 














I 
[ | | | 


FileOutputFormat-K, V> NullOutputFormat«K, V [ricouatomackcvs DBOutputFormat-K, V> 


LazyOutputFormat«K, V SequenceFile SequenceFileAsBinary 
TextOutputFormat-K, V> OutputFormat«K, V> OutputFormat 


图 12-21 输出 数据 类 型 









































表 12-2 Reduce 的 输出 格式 








输出 格式 描 述 
TextOutputFormat 默认 的 输出 格式 ,以 “key \t value” 的 方式 输出 行 
SequenceFileOutputFormat 输出 二 进 制 格式 文件 ,适合 于 读 取 为 其 他 MapReduce 作业 的 输入 
NullOutputFormat 忽略 收 到 的 数据 , 即 不 做 输出 





与 SequenceFileAsBinaryInputFormat 相对 应 , 它 将 键 / 值 对 当 作 二 
进 制 数据 写 人 一 个 顺序 文件 

MapFileOutputFormat 将 结果 写 入 一 个 MapFile 中 。MapFile 中 
的 键 必须 是 排序 的 ,所 以 在 Reducer 中 必须 保证 输出 的 键 有 序 


SequenceFileAsBinaryOutputFormat 





MapFileOutputFormat 








4. MapReduce 处 理 实例 : Word Count on a text file 

下 面 以 图 12-22 所 示 的 一 个 文本 文件 的 Word Count 为 实例 讲解 上 面 所 讲述 的 
MapReduce 计算 模型 的 Map-Shuffle-Reduce 三 个 步骤 。 

输入 文件 : 一 个 包含 三 行文 字 的 文本 文件 (每 个 单词 间 用 空格 隔 开 , 如 图 12-22 最 左 侧 
Input 列 所 示 ) 。 

输出 结果 : 该 文件 的 词 频 统 计 ,每 一 行 输出 一 个 键 值 对 “单词 .出 现 次 数 ”( 如 图 12-22 
最 右 侧 Final result 列 所 示 )。 

计算 模型 : MapReduce。 
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Input Splitting Mapping Shuffling Reducing Final result 
Bear,l 广 一 一 一 Bear.2 
Deer] |— — —*| Bearl 
Deer Bear River. ———»-| Bear,1 
River.l 
Car.l 
Car] | Car3 e Bear.2 
Deer Bear River| Car,l Car,l Car,3 
Car Car River |———* Car Car River 上 一 一 Car.1 Deer,2 
Deer Car Bear River,l River,2 
Deer,l =| Deer,2 -| 
Deer.l 
Deer'1 
Deer Car Bear [— —«-| Car,1 
Bear.l River,] .— — River,2 
River,l 





图 12-22 MapReduce 实例 : 文本 文件 词 频 统计 


第 一 步 : Split 

假设 输入 数据 文件 很 大 ,需要 分 片 (Split) 。 这 里 假设 将 输入 数据 文件 分 为 三 个 Split. 
每 个 Split 包含 一 行文 字 , 如 图 12-22 中 的 Splitting 列 所 示 。 

第 二 步 : Map 

此 处 对 应 三 个 Split 生成 三 个 Map Task, Mapper 首先 将 Split 的 每 一 行文 字 转 换 成 如 
下 的 键 值 对 (每 行 第 一 个 字符 的 字 节 偏 移 量 作为 Key) 。 





























Splitl 
Key Value 
0 Deer Bear River 
Split2 
Key Value 
| 16 Car Car River 
Split3 
Key Value 
30 Deer Car Bear 











然后 针对 每 一 个 Split 执行 map() 方 法 ,此 处 为 对 上 述 键 值 对 表 的 每 一 行进 行 词 频 统 
计 , 每 一 个 Map 任务 (针对 一 个 split) 都 会 生成 如 下 的 键 值 对 。 


Map1 输 出 中 间 结 果 








Splitl 

















Mapl < Deer'1> 
Key Value P < Bear'1> 
0 Deer Bear River <River,l > 
Map2 输 出 中 间 结果 
Split2 

«Carl» 

Key Value Map2 «Carl 
16 Car Car River < River'1> 























Key 


第 三 步 : Shuffle 


Split3 


Value 
Deer Car Bear 





1) Map 端 Shuffle 
(D 没有 定义 Combiner 


Mapl 中 间 结 果 


< Deer'1 > 
< Bear'1 > 
< River, 1> 





Map2 中 间 结 果 





<Car,l> 
<Car,l> 
<River,l> 








Map3 中 间 





< Deer'1> 
«Carl» 
< Bear, 1 > 








(2) 定义 了 Combiner 


Mapl 中 间 结 果 





<Deer,l> 
<Bear,l > 
< River, 1> 





Map2 中 间 结 





< Car'1> 
< Car,1 > 
< River, 1> 





Map3 中 间 结 果 








< Deer] > 
«Carl? 
< Bearl > 








Map3 


Shuffle 


Shuffle 


Shuffle 


Shuffle 


Shuffle 


Shuffle 
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Map3 输 出 中 间 结 果 








<Deer.l> 
<Car,l> 
<Bear,l > 











Shufne 后 结果 





<Deer,l> 
< Bear,l > 
< River,l > 





Shuffle 后 结 





< Carcl, 1>> 
< River,l7 








Shuffle tS 


< Deer, 1 > 
«Carl? 
<Bear'1> 








Shuffle 后 结 





< Deer,] > 
< Bear, > 
< River, 1 > 





Shuffle 后 结果 





<Car2> 
< River'1> 





Shuffle 后 结果 








< Deer'1> 
< Car,1 > 
< Bear, 1> 
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2) Reduce 端 Shuffle 


































































































Map1 输 出 
< Deer,] > < Bear,1 > 
< Bear, 1 > < Bear,1 > 
< River, 1> 
Map2 输 出 < Car2> 
< Car'1> 
<Car2> Merge 
<River,l> < Deer,1 > 
< Deer, 1> 
Map3 输 出 
< Deer'1> < River,l > 
«Carl» < River,l7 
< Bear,l > 
第 四 步 : Reduce 
Reducer 输 入 Reducel Reducer 输 出 最 终结 果 
< Bear.l > < Bear2 > 
< Bear, 1 > 
Reduce2 
<Car2> 
«Carl? Sc 
Reduce3 
< Deer,17 
< Deer,1> < Deer,2 > 
Reduce4 
< River] > 
< River,1 > SRI 

















12.5 应 用 编程 接口 


前 面 的 章节 讲述 了 Hadoop/HDFS/MapReduce 的 计算 架构 .工作 流程 及 算法 原理 ,但 
对 于 开发 工程 师 而 言 , 尚 需 了 解 在 Hadoop 平台 上 MapReduce 应 用 程序 的 设计 与 编程 接 
口 , 以 支持 实际 大 数据 应 用 系统 的 开发 。 本 节 内 容 即 是 介绍 Hadoop 平台 上 MapReduce 应 用 
程序 开发 的 主要 步骤 及 编程 接口 ,给 读者 学 习 掌握 MapReduce 编程 技能 提供 一 个 初步 指导 。 

Hadoop 平台 的 MapReduce 编程 模型 如 图 12-23 所 示 。 应 用 程序 可 以 基于 Hadoop 提 
供 的 MapReduce 编程 接口 (API) 实 现 各 种 数据 的 计算 处 理 。MapReduce 编程 接口 尽 可 能 
封装 了 Map, Shuffle, Reduce 三 个 阶段 的 各 个 功能 组 件 , 遮 盖 了 与 平台 相关 的 细节 ,使 得 程 
序 员 可 以 方便 地 使 用 这 些 类 和 组 件 来 实现 各 项 功能 ,但 实际 上 要 使 用 好 这 些 类 和 组 件 ,也 需 
要 对 MapReduce 的 编程 接口 有 一 个 正确 理解 。 
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图 12-23 MapReduce 编程 模型 


除了 MapReduce 编程 接口 ,Hadoop 平台 还 提供 了 一 组 工具 和 运行 环境 来 更 好 地 支持 
用 户 的 各 类 MapReduce 应 用 ,包括 Hadoop Streaming (支持 其 他 编程 语言 的 应 用 程序 运 
行 ), Hadoop Pipes (支持 C/C++), JobControl (作业 封装 及 管理 组 件 ), ChainMapper/ 
ChainReducer( 一 个 Map/Reduce 任务 内 调用 一 组 首尾 相连 的 Mapper/Reducer 的 组 件 , 提 
供 了 在 一 个 任务 内 完成 一 系列 操作 的 机 制 ) 等 。 

1. 程序 运行 方式 

Hadoop 平 台 为 应 用 程序 提供 了 如 下 三 种 MapReduce 作业 提交 和 运行 方式 。 

(D Java( 基 本 方式 ); 

(2) Hadoop Streaming( 用 于 支持 多 语言 ); 

(3) Hadoop Pipes( 支 持 C/C++). 

由 于 Hadoop 平台 和 MapReduce 计算 引擎 是 用 Java 语言 写成 ,所 以 用 Java 编写 的 应 
用 程序 可 以 毫 无 障碍 地 提交 Hadoop 平台 和 运行。 下面 是 Java 语言 的 Word Count 程序 编译 
和 提交 运行 的 方式 。 

/* 设置 环境 参数 * / 


$ export HADOOP HOME = /usr/local/hadoop 
$ export CLASSPATH = $ ( $ HADOOP HOME/bin/hadoop classpath): $ CLASSPATH 


/* 编译 应 用 程序 并 打 成 jar 包 * / 
$ javac WordCount. java 
$ jar - cvf WordCount. jar ./WordCount * .class 


/* 应 用 程序 提交 运行 * / 
$ /usr/local/hadoop/bin/hadoop jar WordCount. jar \ 
org/apache/hadoop/examples/WordCount input output 
除了 Java 应 用 程序 外 ,Hadoop 还 支持 Hadoop Streaming 和 Hadoop Pipe 两 种 提交 作 
业 的 方式 。Hadoop Streaming 容许 用 户 在 命令 行 下 提交 MapReduce 作业 时 将 可 执行 文件 
或 脚本 文件 作为 Mapper 或 Reducer 提交 ,如 下 所 示 。 


$ HADOOP HOME/bin/hadoop jar $ HADOOP HOME/hadoop - streaming. jar V 
— input myInputDirs V 
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一 output myOutputDir V 


一 mapper /bin/cat V 
— reducer /bin/wc 


在 上 面 的 命令 行 中 , 用户 以 streaming 方式 提交 MapReduce 作业 ,输入 文件 夹 为 
myInputDirs ,输出 文件 夹 为 myOutputDir。 这 里 ,Linux 命令 cat( 连 续 读 出 文件 内 容 ) 和 wc 
(计算 词 频 ) 分 别 被 作为 Mapper 和 Reducer 提交 。 当 一 个 Map Task 需要 启用 一 个 Mapper 
时 ,这 个 可 执行 文件 或 脚本 文件 会 被 作为 一 个 单独 进程 启动 ,而 输入 数据 会 被 Map Task 以 
行 的 形式 输入 给 Mapper, Mapper 的 处 理 结果 会 以 键 值 对 的 形式 输出 。 与 Mapper 类 似 ,可 
执行 文件 或 脚本 形式 的 Reducer 也 是 以 一 个 单独 进程 形式 调用 。 

通过 这 种 可 执行 文件 或 脚本 形式 的 Mapper/Reducer 的 调用 ,MapReduce 提供 了 支持 
其 他 语言 的 应 用 程序 的 接口 ,因为 其 他 编程 语言 (如 Python) 写 成 的 应 用 程序 在 编译 后 可 以 
这 种 形式 提交 运行 。 下 面 的 命令 行 就 是 用 户 的 Python 脚本 文件 myPythonScript. py 被 作 


为 Mapper 提交 运行 。 


$ HADOOP HOME/bin/hadoop jar $ HADOOP_HOME/hadoop - streaming. jar V 


— input nyInputDirs V 


— output nyOutputDir V 


一 mapper myPythonScript.py V 


- reducer /bin/wc V 


— file myPythonScript.py 


事实 上 , Hadoop Streaming 还 支持 单独 的 Java Class 作为 用 户 指定 的 Mapper, 
Reducer,Partioner 或 Combiner 提交 ,如 下 面 的 IdentityMapper 就 作为 用 户 的 选择 提交 。 


$ HADOOP HOME/bin/hadoop jar $ HADOOP HOME/hadoop— streaming. jar V 


— input nyInputDirs V 


— output myOutputDir V 


— mapper org. apache. hadoop. mapred. lib. IdentityMapper V 


- reducer /bin/wc 


K 12-3 列 出 了 Hadoop Streaming 命令 行 可 以 设置 的 各 种 参数 ,可 支持 各 种 不 同 的 




















用 途 。 
表 12-3 Hadoop Streaming 命令 行 参数 设置 
参 数 可 选 / 必 选 说 明 
-input directoryname or filename 必 选 | Mapper 的 输入 文件 (或 文件 夹 ) 路 径 
-output directoryname 必 选 | Reducer 的 输出 文件 夹 路 径 
-mapper executable or JavaClassName 必 选 Mapper 可 执行 文件 
-reducer executable or JavaClassName 必 选 Reducer 可 执行 文件 
file fil 3h 告知 Mapper, Reducer 或 Combiner 等 可 执行 文件 
ile filename 在 本 地 文件 夹 内 
将 输入 文本 文件 转化 为 键 值 对 的 Java 类 的 名 字 
-inputformat JavaClassName 可 选 | ORA TextInputFormat) 
c] HDFS 
-outputformat JavaClassName 可 选 SI ac Dae Beans Bex ose 








| (默认 TextOutputformat) 
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ZR 
参 数 可 选 / 必 选 说 明 
"m " 提供 Partition 功能 (分 发 键 值 对 给 Reduce Task 

-partitioner JavaClassName 可 选 | 去 化 简 ) 的 Java 类 名 字 
人 可 选 | 提供 Combine 功能 的 可 执行 文件 名 或 Java 类 名 字 
JavaClassName 
-cmdenv name 一 value mpi o ”| 传递 环境 参数 名 给 命令 行 

A : | 提供 老 版 本 兼容 性 : 使 用 Record Reader 类 而 不 是 
-inputreader 可 选 

InputFormat 类 
-verbose 可 选 详细 输出 
Ser Output hs 惰性 输出 。 比 如 ,输出 格式 是 基于 FileOutputFormat» 
ji 则 输出 结果 文件 只 在 第 一 次 输出 函数 被 调用 时 生成 

-numReduceTasks 可 选 | 设置 Reducer 的 数目 
-mapdebug 可 选 Map 执行 失败 时 需 执行 一 个 脚本 文件 
-reducedebug 可 选 | Reduce 执行 失败 时 需 执行 一 个 脚本 文件 











Hadoop/ MapRedure 另外 还 提供 Hadoop Pipes 来 支持 客户 用 CVC++ 语 言 写 的 Mapper, 
Reducer, Partitioner, Combiner, RecordReader 等 组 件 。 与 Hadoop Streaming 不 同 的 是 ， 
Hadoop Pipes 使 用 Socket 接口 作为 MapReduce 引擎 与 上 述 C/C++ 组 件 的 通信 和 界面 ,而 
Hadoop Streaming 使 用 的 是 标准 输入 输出 格式 (stdin/stdout) 。 

Hadoop Pipes 运行 C/C++ 程序 的 命令 行 如 下 。 

$ hadoop pipes -D hadoop. pipes. java. recordreader- true V 

一 D hadoop. pipes. java. recordwriter = true V 
- input dftl -output dftl- out V 
— program bin/wordcount 

这 里 输入 文件 名 为 dftl ,输出 文件 名 为 dftl-out. 而 运行 的 C/C++ 程序 为 放置 在 bin 
文件 夹 下 的 wordcount 可 执行 文件 。 上 述 命令 行 执行 后 ,用 户 的 MapReduce 作业 提交 到 
org. apache. hadoop. mapred. pipes 中 的 Submmit 类 , 它 首 先 会 进行 作业 参数 配置 (调用 函 
数 setupPipesJob) ,然后 通过 JobClient( conf). submitJob(conf) 将 作业 提交 到 Hadoop 
平台 。 

下 面 以 图 12-24 所 示 的 Map 阶段 为 例 说 明 Hadoop Pipes 的 工作 原理 : Hadoop Pipes 
程序 在 运行 中 分 为 Java 程序 (PipesMapRunner) 和 C++ {JF (Mapper, Combiner, 
Partitioner) 两 部 分 。Java 程序 (代表 Map Task) fii JH ServerScoket 创建 Socket Server 端 ， 
C++ 程序 通过 Socket Client 与 Java 程序 通信 。MapRunner 通过 两 个 协议 类 DownwardProtocol 
和 UpwardProtocol 向 C++ 端 发 送 数据 和 从 C++ 端 接收 数据 。 而 C++ 端 也 有 两 个 类 Protocol 和 
UpwardProtocol 与 之 对 应 。Protocol 将 接收 的 Key/Value 键 值 对 传 给 C++ 写 的 Mapper, 
Combiner 和 Partitioner, 处 理 后 由 UpwardProtocol 返回 给 Java 程序 ,最 后 由 Reducer 将 结 
果 数 据 写 到 HDFS。 

在 Hadoop Pipes 命令 行 如 果 设 置 hadoop. pipes. java. recordreader — true, Hadoop 会 
使 用 Java 的 InputFormat 输入 数据 格式 (默认 为 TextInputFormat); 如 果 设 置 为 hadoop. 
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图 12-24 Hadoop Pipe 中 的 Map 实现 
pipes. java. recordreader— false. Hadoop 会 假设 用 户 使 用 C++ 的 InputFormat. Wl] Java 端 程 
序 会 读 取 每 个 InputSplit 并 通过 Socket 传输 给 C++ 端的 RecordReader 去 解析 o 
图 12-25 对 Hadoop Streaming 和 Hadoop Pipes 两 种 方式 的 执行 步骤 进行 了 对 比 。 可 
以 看 出 ,Streaming 更 多 依赖 于 Java 环境 ,使 用 stdin/stdout 传递 数据 ,使 用 的 Combiner 和 
Streaming Pipes 
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Partitioner 也 需 是 Java 类 ,只 有 Mapper 和 Reducer 可 以 是 其 他 语言 的 可 执行 文件 (图 中 的 
Streaming process), Pipes 则 更 加 灵活 ,数据 传递 采用 Socket 通信 , Combiner 和 
Partitioner 也 可 以 是 其 他 语言 编译 的 组 件 ,容许 用 户 使 用 自己 的 RecordReader, 可 以 充分 利 
用 C/C++ 程序 执行 效率 高 的 特点 。 但 Pipes 在 C/C** Mapper 和 Reducer 之 外 加 了 一 层 封 
装 类 (C++wrapper library) ,使 得 程序 结构 更 复杂 。 

应 当 指 出 ,上 述 三 种 应 用 程序 方式 不 管 采 用 哪 一 种 ,在 Hadoop 内 部 的 MapReduce TF 
算 引 擎 的 工作 原理 都 是 一 样 的 。 

2. MapReduce 编程 模型 

MapReduce 是 一 种 MIMD 并 行 计算 体系 ,其 编程 模型 包括 计算 模型 、 编 程 接口 ,以 及 
计算 环境 。 在 进行 应 用 程序 开发 时 ,需要 对 MapReduce 的 并 行 计算 模型 .应 用 编程 接口 ,以 
及 Hadoop 平台 提供 的 计算 环境 有 一 个 明确 的 了 解 , 才 能 使 得 应 用 程序 能 够 简便 易 行 ,并 且 
最 大 程度 地 利用 Hadoop/MapReduce 的 大 规模 数据 并 行 处 理 能 力 。 

并 行 计算 模型 : MapReduce 采用 了 基于 分 治 法 (Dicide-and-Conquer) 的 数据 分 割 并 行 
处 理 模 式 , 对 于 一 个 超大 规模 的 计算 任务 (大 数据 文件 ) ,首先 将 其 分 割 为 不 具有 计算 依赖 关 
系 的 子 任务 (文件 分 片 ) ,然后 对 每 个 子 任务 以 并 行 方式 完成 计算 处 理 , 最 后 结果 合并 成 计算 
结果 输出 ,如 图 12-26 所 示 。 


大 数据 计算 任务 








Cres) Dems] — Dems] (F3) 








图 12-26 MapReduce 并 行 计 算 模型 


上 述 并 行 计算 模型 的 两 个 基本 操作 : 任务 划分 与 结果 合并 ,在 MapReduce 中 抽象 成 两 
个 计算 步 又: Map( 映 射 ) 和 Reduce( 化 简 )。 在 图 12-27 中 ,M1、M2、M3 等 即 为 Map 操作 ， 
而 R1、R2 则 表示 Reduce 操作 。 

Map 步骤 包括 如 下 工作 。 

(D 多 个 Map Task( 图 12-24 的 子 任务 ) 并 行 处 理 。 

(2) 输入 文件 解析 (转化 为 键 值 对 ) 。 

(3) 完成 键 值 对 计算 转换 (输出 中 间 结 果 ) 。 

(4) 中 间 数 据 处 理 (Sort, Combine, Partition)。 

Reduce 步骤 如 下 。 

(D 多 个 Reduce Task 并 行 处 理 。 

(2) 数据 归并 (Merge) 。 

(3) 最 后 结果 输出 。 
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图 12-27 MapReduce 计算 步骤 


针对 图 12-27 表示 的 MapReduce 编程 模型 的 主要 环节 ,下 面 分 别 介绍 其 工作 原理 和 编 
程 接口 。 
1) 作业 提交 
Hadoop 2. 0 之 后 用 Job 类 代 蔡 了 原来 的 JobConf 和 JobClient 两 个 类 ,这 样 使 用 一 个 
类 就 可 以 完成 作业 配置 和 作业 提交 两 个 功能 ,简化 了 作业 编程 方式 。Job 的 编程 接口 如 
图 12-28 所 示 。 
| -conf : mucho TEE 作业 提交 包括 作业 配置 和 提交 。 作 业 配 置 包括 环 
[FeetAuribute0 ATTRIBUTE 境 配置 和 用 户 自 定义 配置 两 部 分 。 环 境 配 置 主 要 由 
Hadoop 的 mapred-default. xml 和 mapred-site. xml 两 


个 文件 的 配置 项 构成 ; 用 户 自 定义 配置 则 由 用 户 自 己 





























ua 根据 作业 特点 个 性 化 定制 而 成 ,比如 用 户 可 设置 作业 
[SetAtributetn attribute : ATTRIBUTE) 名 称 ,以 及 Mapper/Reducer; Reduce Task 的 个 数 等 。 
2) 文件 划分 
12-28 Job 编程 接口 文件 划分 操作 包括 文件 切 分 算法 和 输入 文件 格式 


转换 ,涉及 分 片 大 小 和 Map Task 数目 的 确定 。 
Hadoop 通过 InputFormat 类 实现 这 一 功能 , 它 提供 以 下 三 个 作用 。 
CD 数据 切 分 : 按照 预定 算法 将 输入 数据 切 分 成 若干 个 split, 确 定 Split Size。Hadoop 
2.0 之 后 划分 算法 不 再 考虑 用 户 设 定 的 Map Task 个 数 ,而 用 mapred. max. split. size( 记 为 
maxSize) 代 替 来 计算 InputSplit 的 大 小 ,计算 公式 变 为 : 
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splitSize = max{minSize, min{maxSize, blockSize}} 


(2) 将 输入 文件 数据 转换 为 键 值 对 格式 ,作为 Mapper 的 输入 。 
(3) 提供 RecordReader 类 的 实现 方法 ,把 InputSplit 读 到 Mapper 中 进行 处 理 需要 注 
意 InputFormat 的 getSplits() 和 RecordReader() 两 个 方法 。 
public abstract List < InputSplit > getSplits (JobContext context) throws IOException, 
InterruptedException; 
public abstract RecordReader < k, v > createRecordReader(InputSplit split, TaskAttemptContext 
context ) throws IOException, InterruptedException; 
这 两 个 方法 接口 提供 了 InputSplit 的 计算 方式 以 及 将 InputSplit 处 理 转化 为 Key/ 
Value 键 值 对 的 实现 方法 (图 12-29), 如 果 程 序 员 需 要 实现 自己 的 split 计算 方式 和 键 值 对 
格式 ,就 需要 重 写 这 两 个 函数 。 
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+getSplits(in context : JobContext) : List<InputSplit> 
"createRecordReader(in split : InputSplit, in context : TaskAttemptContext) : RecordReadercKEY IN, V ALUEIN 











图 12-29 输入 数据 格式 编程 接口 


对 于 文件 型 输入 数据 (文本 文件 、 键 值 型 文件 二进制 格式 文件 等 ), Hadoop 提供 了 一 个 
InputFormat 的 基 类 FileInputFormat 来 提供 上 述 输入 数据 格式 功能 ,并 从 FileInputFormat 派 
生出 更 多 针对 不 同文 本 格式 的 TextInputFormat、KeyValueTextInputFormat 和 
NLineInputFormat 类 ,以 及 针对 二 进 制 文件 格式 的 SequenceFileInputFormat 类 。 对 于 数 
据 库 输入 格式 ,Hadoop 则 提供 了 DBInputFormat 类 ,如 图 12-30 所 示 。 

3) Map 处 理 

如 图 12-27 所 示 , 有 多 个 Map Task( 图 中 的 M1, M2. M3,…) 运 行 在 多 个 数据 节点 上 ， 
每 个 Map Task 都 启动 一 个 Mapper, 调 用 map()、sort()、combine()、partition() 等 函数 完 
成 相应 的 数据 处 理 操作 。Mapper 的 编程 接口 如 图 12-31 所 示 , 它 继承 自 JobContext、 
TaskInputOutputContext、MapContext 等 基础 类 ,通过 基础 类 提供 的 方法 或 Mapper 自身 
的 方法 完成 如 下 功能 。 
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图 12-30 文件 型 输入 数据 编程 接口 
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图 12-31 Mapper 和 Reducer 的 编程 接口 


COD 初始 化 

Mapper 通过 自身 的 setup(in context:Mapper. Context) 方 法 完成 初始 化 工作 。 

(2) Map 操作 

Mapper 会 通过 MapContext 提供 的 RecordReader 从 InputSplit 获取 一 个 个 Key/ 
Value 对 ,并 交 给 map(in key. in value. in context: MapperContext) 来 处 理 。 程 序 员 的 主 
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要 任务 就 是 重 写 这 个 mapO 函数 ,让 它 按 用 户 的 需要 完成 计算 处 理 任务 。 

(3) 清理 

Mapper 通过 自身 的 cleanup(in context: Mapper. Context) 方 法 完成 清理 工作 。 

MapReduce 另外 提供 了 如 下 的 Mapper 类 的 实现 用 于 支持 一 些 特定 功能 ,如 图 12-32 
所 示 。 

(1) ChainMapper: 用 于 支持 链 式 作业 。 

(2) IdentityMapper: 对 于 输入 的 Key/ Value 对 不 进行 任何 处 理 ,直接 输出 。 

(3) InvertMapper: 交换 Key/Value 位 置 。 

(4) RegexMapper: 正则 表达 式 字符 串 匹 配 。 

(5) TokenMapper : 将 字符 串 分 割 成 若干 个 Token (单词 ) ,可 用 作 Word Count 的 Mapper. 








Mapper 
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ChainMapper Identity Mapper | InvertMapper RegexMapper TokenMapper 









































图 12-32 MapReduce 提供 的 Mapper 实现 类 


在 Map 阶段 还 有 两 个 附加 的 操作 : Partition 和 Combine, 其 实现 方式 和 编程 接口 如 下 。 

(1) Combine 操作 

主要 作用 是 合并 Map 输出 的 中 间 数 据 , 减 少数 据 传 输 ,提高 处 理 效率 。 其 基本 原理 是 
实现 本 地 Key 的 归并 ,具有 类 似 本 地 的 Reduce 功能 .合并 相同 的 Key 对 应 的 Value 
(WordCount 例子 ) ,通常 采用 与 Reducer 相同 的 逻辑 。 

与 Partition 不 一 样 , Partition 是 必须 完成 的 操作 (用 户 不 提供 就 使 用 默认 的 
Partitioner) ,为 Reducer 提供 输入 数据 。 而 Combine 是 可 选 操作 ,不 使 用 Combiner 也 不 会 
影响 最 终 输出 结果 ,程序 员 可 通过 下 列 方式 来 设置 。 


job.setCombinerClass  (IntSumReducer. class) 


这 里 的 IntSumReducer 是 MapReduce 提供 的 一 个 执行 合并 逻辑 的 类 (合并 相同 整数 型 Key 
值 的 数据 项 ,取舍 加 值 )。 

需要 注意 的 是 : Combiner 的 使 用 (不 管 是 系统 提供 的 Combiner 或 是 用 户 自 己 写 的 
Combiner) 都 不 能 影响 到 最 终 的 计算 结果 , 即 不 能 因为 处 理 步骤 中 增加 了 一 个 Combiner 导 
臻 最 后 计算 结果 的 改变 。 所 以 Combiner 只 适用 于 那 种 Reducer 的 输入 Key/Value 与 输出 
Key/Value 类 型 完全 一 致 , 且 不 影响 最 终结 果 的 场景 。 比 如 求 累 加 值 .最 大 值 等 。 

(2) Partition 操作 

Partition 的 作用 是 对 Map 输出 的 中 间 数 据 进 行 分 片 ,按照 某 种 算法 将 中 间 数 据 分 为 多 组 ， 
然后 每 组 数据 分 发 给 一 个 Reducer 去 完成 Reduce 阶段 的 处 理 。Partition 的 方式 会 直接 影响 
Reduce 阶段 的 负载 均衡 。Partition 操作 由 Partitioner 类 来 完成 ,其 编程 接口 见 图 12-33。 

MapReduce 提供 了 两 个 Partitioner 实现 类 : HashPartitioner 和 TotalOrderPartitioner ,默认 
HashPartitioner, 它 实现 了 一 种 基于 哈 希 值 的 分 片 方法 。HashPartitioner 计算 分 片 值 (也 
即 是 对 应 的 Reducer 编号 ) 的 格式 如 以 下 代码 所 示 ,用户 如 果 需 要 使 用 自己 的 分 片 方法 , 则 
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需 改 写 下 面 的 getPartition() 方 法 。 


1. | public int getPartition(K2 key, V2 value, 

e» int numReduceTasks) { 

3 return (key.hashCode() & Integer.MAX VALUE) $ numReduceTasks; 
4 F 





<<interface>> 
JobConfigurable 


+configure(in job : JobConf) 














<<interface>> 
Partitioner<K2,V2> 








+getPartition(in key : K2, in value : K2, innumPartitions : int) : int 





图 12-33 Partitioner 的 编程 接口 


TotalOrderPartitioner 主要 用 于 全 局 排序 。 常 规 方式 下 Map 端 输出 的 中 间 数 据 在 
Partition 后 即 可 局 部 排序 ( 即 在 一 个 Partition 内 部 进行 Sort ,但 这 些 Partitions 在 提交 到 
Reducer 端 需要 进行 全 局 排序 时 ( 即 所 有 Partition 的 数据 加 在 一 起 进行 排序 ) ,只 能 有 一 个 
Reducer 进程 承担 此 操作 ( 它 需 要 掌握 全 局 顺序 ) ,势必 造 成 Reduce 端的 性 能 瓶颈 ， 
TotalOrderPartitioner 正 是 为 了 解决 这 一 问题 而 设计 的 。 

TotalOrderPartitioner 的 工作 原理 分 为 以 下 三 步 。 

(1) 根据 Reduce Task 数目 确定 分 割 点 数目 , 即 , 分 割 点 数目 一 Reduce Task 数目 ; 在 
Map 端 通过 采样 算法 获取 分 片 的 分 割 点 , Hadoop 提供 了 几 个 采样 算法 ,如 IntercalSampler、 
RandomSampler, SplitSampler 等 (具体 见 org. apache. hadoop. mapred. lib 中 的 
InputSampler 类 )。 这 些 分 割 点 确定 了 数据 的 分 区 ,比如 ,reduce task 数目 一 10, 分 割 点 就 
会 形成 10 个 分 区 。 

(2) 在 Map 端 ,TotalOrderPartitioner 将 中 间 结 果 数 据 按 其 Key 值 划 入 不 同 分 区 ,并 保 
证 每 一 个 分 区 的 全 部 数据 的 Key 值 都 大 于 前 一 个 分 区 (但 在 分 区 内 部 无 须 排序 )。 比 如 ,分 
区 10 的 全 部 数据 的 Key 值 都 大 于 分 区 9 数据 的 Key 值 , 分 区 9 的 全 部 数据 的 Key 值 都 大 
于 分 区 8 数据 的 Key 值 , 以 此 类 推 。 

(3) Reduce 端 在 取得 Map 端 由 TotalOrderPartitioner 分 发 的 中 间 数 据 Partition 后 
(一 个 Reduce Task 负责 一 个 Partition) ,多 个 Reduce Task 同时 并 行 对 本 分 区 数据 进行 排 
序 , 分 区 排序 结束 即 得 到 全 局 排序 结果 (记得 每 个 分 区 数据 都 大 于 前 一 个 分 区 ) 。 

可 以 看 出 ,基于 TotalOrderPartitioner 全 局 排序 的 效率 跟 Key 值 分 布 规律 和 采样 算法 
有 直接 关系 ,Key 值 分 布 越 均匀 且 采 样 越 具 有 代表 性 , 则 Reduce Task 负载 越 均衡 ,排序 效 


率 越 高 。 
Hadoop 另外 提供 下 面 的 自 定义 方法 让 用 户 使 用 自己 设计 的 Partitioner。 
// 用 户 自 定义 partitioner 


Class MyPartitioner extends HashPartitioner <K,V> 
//override the method 
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getPartition(K key, V value, int numReduceTasks) 


{ term = key. toString().split(",")[0]; //«term, docid» => term 
super.getPartition(term, value, numReduceTasks); 
) 
) 


//f Job 中 设置 用 户 的 partitioner: 
Job. setPartitionerClass(MyPartitioner) 


4) Merge 操作 

在 MapReduce 的 Map 和 Reduce 阶段 都 会 涉及 将 多 个 中 间 数 据 或 者 中 间 结 果 文 件 根 
据 其 Key 值 进行 同类 项 归并 (Merge) 的 操作 ,以 提高 处 理 效 率 。Map 阶段 的 Merge 操作 发 
生 在 Spill 过 程 , 受 内 存 大 小 限制 , 当 Mapper 输入 内 存 缓冲 区 的 中 间 数 据 量 达到 一 定 阔 值 
时 (80%) ,将 会 触发 Spill( 溢 写 ) 操 作 , 系 统 会 将 内 存 的 输出 数据 在 进行 排序 后 写 入 磁盘 , 存 
成 临时 文件 。 如 果 Map 输出 数据 量 大 就 可 能 会 产生 多 个 临时 文件 ,这 多 个 临时 文件 需要 归 
并 (Merge) 成 一 个 文件 供 Partitioner 分 片 后 ,最 终 交 给 Reducer 处 理 。 

Map 阶段 的 Merge 操作 是 通过 MapOutputBuffer 的 mergeParts() 方 法 来 启动 , 它 首 先 
把 属于 同一 个 Mapper 的 中 间 数 据 从 多 个 临时 文件 读 出 ,然后 基于 Key 值 把 属于 同一 分 片 
(Partition) 的 数据 归 人 一 个 Segment. YE mergeParts() 中 的 代码 段 如 下 。 


for (int parts = 0; parts < partitions; parts++) { 
//create the segments to be merged 
List < Segment < K, V >> segmentList = 
new ArrayList < Segment < K, V>>(numSpills); 
for (int i = 0; i< numSpills; i++) ( 
IndexRecord indexRecord = indexCacheList.get(i).getIndex(parts); 
Segment < K, V» s = new Segment < K, V»(job, rfs, filename[i], indexRecord. startOffset, 
indexRecord.partLength, codec, true); 
//add the segment to the indexed list 
segnentList.add(i, s); 


if (LOG. isDebugEnabled()) ( 
LOG.debug("MapId- "+ mapld + " Reducer-" + parts + "Spill =" + i + "(" + 
indexRecord.startOffset + "," + indexRecord. rawLength + ", " + indexRecord. partLength + 
Ey 
) 
) 


完成 SegmentList 构建 后 , 即 调用 merge() 方 法 完成 同一 分 区 具有 相等 Key 值 的 数据 的 归 
并 (代码 段 如 下 ) ,并 将 结果 写 和 人 归并 后 的 一 个 Spill 文件 ,至 此 Spill 和 Merge 过 程 完成 。 


//merge 

@SuppressWarnings( "unchecked" ) 

RawKeyValueIterator kvIter = Merger.merge(job, rfs, 
keyClass, valClass, codec, 

segmentList, 

job. getInt("io. sort. factor", 100), 

new Path(mapId. toString()), 

job. getOutputKeyComparator(), 
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reporter, 
null, 
spilledRecordsCounter); 


//write merged output to disk 
long segmentStart - finalOut.getPos(); 
Writer < K, V > writer = new Writer < K, V > (job, finalOut, keyClass, valClass, codec, 
spilledRecordsCounter); 

if (combinerRunner == null || nunSpills < minSpillsForCombine) 

{ 

Merger. writeFile(kvIter, writer, reporter, job); 
} 


else 


; combineCollector. setWriter(writer); 
combinerRunner.combine(kvIter, combineCollector); 
) 
Reduce 阶段 的 Merge, 则 是 每 个 Reducer 通过 远程 复制 的 方式 获取 多 个 输入 数据 块 ， 
这 些 数据 块 来 自 不 同 的 Mapper 输出 ,特点 是 块 内 有 序 , 块 间 无 序 ,需要 进行 merge 操作 使 
其 变 得 有 序 , 以 便 下 一 步 处 理 。 
5) Reduce 处 理 
如 图 12-27 所 示 , 有 多 个 Reduce Task( 图 中 的 R1，R2,…) 运 行 在 多 个 数据 节点 上 ,每 
个 Reduce Task 都 启动 一 个 Reducer, 调 用 sort() ,reduce() 函 数 完 成 相应 的 数据 化 简 处 理 。 
Reducer 的 编程 接口 如 图 12-34 所 示 , 它 继承 自 JobContext、TaskInputOutputContext、 
ReduceContext 等 基础 类 ,通过 基础 类 提供 的 方法 或 Reducer 自身 的 方法 完成 Reduce JJ 
能 。 程 序 员 的 主要 任务 就 是 重 写 Reducer 的 reduce O 函数 ,让 它 按 用 户 的 设计 完成 化 简 操 
作 并 输出 最 终结 果 。 
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图 12-34 MapReduce 提供 的 Reducer 实现 类 


MapReduce 另外 提供 了 如 下 的 Reducer 类 的 实现 用 于 支持 一 些 特 定 功能 ,如 图 12-32 
所 示 。 

(1) ChainReducer: 用 于 支持 链 式 作业 。 

(2) IdentityReducer: 对 于 输入 的 Key/Value 对 不 进行 任何 处 理 , 直接 输 出 。 

(3) IntSumReducer: 以 Key 为 组 ,对 int 类 型 的 Value 求 和 。 

(4) LongSumReducer: 以 Key 为 组 ,对 long 类 型 的 Value 求 和 。 

综 上 所 述 ,MapReduce 编程 模型 的 特点 如 下 。 

CD 实现 自动 并 行 化 计算 ,为 程序 员 隐 藏 系统 层 细节 

(2) 计算 任务 的 划分 和 调度 ; 

G) 数据 的 分 布 式 存储 和 划分 ; 
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(4) 处 理 数据 与 计算 任务 的 同步 ; 

(5) 结果 数据 的 收集 整理 ; 

(6) 系统 通信 ,负载 平 衡 、 计 算 性 能 优化 处 理 ; 
(7) 处 理 系 统 节 点 出 错 检测 和 失效 恢复 。 
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习题 


1. 简 述 Map 包含 哪些 步 又。 

2. 简 述 Reduce 包含 哪些 步骤 。 

3. MapReduce 中 排序 发 生 在 哪 几 个 阶段 ? 这 些 排 序 是 否 可 以 避免 ? 为 什么 ? 

4. 编写 MapReduce 作业 时 ,如 何 做 到 在 Reduce 阶段 , 先 对 Key 排序 ,再 对 Value 排序 ? 

5. 如 何 使 用 MapReduce 实现 两 个 表 join, 可 以 考虑 以 下 几 种 情况 : 一 个 表 大 ,一 个 
表 小 (可 放 到 内 存 中 ); 四 两 个 表 都 是 大 表 。 








超大 规模 数据 处 理 系统 (Extra Large-scale Data Processing Systems) 采 用 的 计算 架构 
大 体 可 分 为 两 类 : 一 类 是 非 图 计算 模型 的 (如 MapReduce, Stream Computing, MPP 等 ); 
另 一 类 是 基于 图 计算 模型 的 (如 Google 的 Pregel, 开 源 社 区 的 Hama, Giraph, GraphLab 
等 ) 。 非 图 计算 模型 的 代表 是 Google 于 2004 年 提出 的 MapReduce 分 布 式 计 算 模 型 2 和 基 
于 这 一 模型 结合 分 布 式 文件 系统 GFS 和 分 布 式 数据 库 Bigtable' 引 构建 的 大 规模 分 布 式 并 
行 计 算 引 擎 。 另 一 个 与 MapReduce 相似 的 是 Microsoft 在 2007 年 发 布 的 Dryad 分 布 式 并 
行 计算 平台 外, 它 基于 Cosmos 文件 系统 ,其 竞争 对 象 为 Google 的 MapReduce, Dryad 系 
统 的 总 体 架 构 支 持 有 向 无 环 图 (Directed Acyclic Graph) 类 型 数据 流 的 并 行程 序 , 本 质 上 仍 
然 属 于 MapReduce 型 的 并 行 计算 模型 。 总 之 , MapReduce 模型 已 被 证 明 是 目前 最 为 有 效 
和 最 易于 使 用 的 一 种 面向 大 规模 海量 数据 处 理 的 高 性 能 并 行 计算 技术 ,特别 适合 于 搜索 引 
擎 (文档 倒 排 索引 、 网 页 链接 图 分 析 、 页 面 排序 等 )、Web 日 志 分 析 、 文 档 分 析 处 理 、 机 器 学 
习 、 机 器 翻译 等 各 种 主要 针对 文本 数据 和 数值 型 数据 的 应 用 领域 。MapReduce 计算 模型 的 
两 个 核心 概念 为 “Map”( 映 射 ); 和 “Reduce”( 化 简 ), 它 将 计算 任务 划分 为 Map 和 Reduce 两 
阶段 ,形成 一 个 两 阶段 处 理 流程 。Map 阶段 产生 巨 量 的 中 间 数 据 , Hadoop 将 其 存储 在 本 地 
磁盘 上 ,而 Reducer 再 将 其 远程 读 取 到 自己 的 本 地 机 器 上 ,完成 化 简 操 作 。 这 种 计算 模式 伴 
随 着 大 量 的 1/0 操作 和 网 络 开 销 , 适 合 于 一 次 性 完成 的 并 行 处 理工 作 , 但 不 适合 于 有 和 迭代 
循环 的 其 他 算法 或 反复 操作 的 计算 模式 ,因为 循环 迭代 意味 着 产生 大 量 的 中 间 数 据 及 反复 
进行 大 数据 量 的 网 络 传输 ,对 性 能 极其 不 利 。 可 以 看 出 MapReduce 这 种 基于 数据 划分 的 分 
布 式 并 行 计算 模式 有 两 个 基本 要 求 ,或 者 说 受到 以 下 两 个 限制 。 

(1) 大 数据 集 可 以 拆 分 成 小 规模 的 数据 子 集 ,让 计算 程序 作用 于 每 一 个 数据 子 集 
完成 并 行 处 理 。 这 就 意味 着 数据 相互 间 不 能 是 强 依赖 关系 ,因此 能 够 进行 大 数据 集 的 
分 割 。 




















第 13 章 图 并 行 计算 框架 dm 


(2) MapReduce 是 一 种 典型 的 批 处 理 模式 , 即 对 数据 的 计算 处 理 是 按照 流水 线 方式 执 
行 ,完成 第 一 步 , 才 会 执行 第 二 步 ; 每 一 步 内 可 能 有 大 量 的 并 行 处 理 线程 ,但 没有 跨越 很 多 
步 的 迭代 循环 计算 。 

但 现实 世界 中 有 很 多 应 用 数据 更 适合 以 网 络 或 图 的 形式 展现 。 比 如 Facebook、 
Twitter、 新 浪 微 博 、 人 人 等 大 型 社交 网 络 中 存在 Web 社团 (Web 社团 定义 : Wt V 为 某 些 节 
点 的 集合 ,一 个 Web 社团 是 其 中 的 一 个 子 集 CCV ,满足 条 件 : 对 任何 节点 vE C,wv 与 属于 
C 当中 节点 之 间 连 接 的 边 数 大 于 它 和 C 以 外 其 他 节点 连接 的 边 数 ) ,这 种 社交 网 络 数据 最 适 
合用 社交 网 络 图 来 表示 (图 13-1); 网 络 流 指 物体 从 出 发 点 经 过 一 个 网 络 系统 流向 目的 地 的 
一 个 过 程 ,我 们 可 以 用 网 络 流 来 模拟 流 经 管道 的 液体 、 通 过 装配 线 的 产品 部 件 、 物 流 配送 路 
线 , 通 信和 网 络 传送 的 信息 等 实际 应 用 ,网 络 流 对 应 的 就 是 一 个 有 向 图 (图 13-20 ; 分 子 生物 学 
中 基因 功能 的 研究 常常 需要 处 理 包含 海量 数据 的 基因 图 谱 ( 图 13-3)。 这 类 以 图 (Graph) 形 
式 表征 的 数据 在 大 数据 系统 需要 处 理 的 数据 量 中 占 了 相当 大 的 一 个 比例 (Google 公司 提 到 
其 搜索 引擎 处 理 的 数据 量 中 有 20% 是 由 图 处 理 引 擎 完成 ), 因 此 ,图 数据 的 表达 、 建 模 \ 存 
储 、 处 理 成 为 大 数据 计算 体系 的 一 个 特定 类 型 。 





图 13-2 用 有 向 图 表征 网 络 流 
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图 13-3 ”基因 表达 图 谱 


这 类 图 计算 问题 具有 如 下 的 固有 特征 。 

1. 图 分 割 难题 

对 于 包含 大 规模 数据 的 网 络 图 ,常常 需要 对 大 图 进行 分 割 , 切 分 成 小 图 进行 计算 处 理 。 
如 图 13-4 所 示 ,出 于 计算 的 目的 ,需要 把 左边 包含 6 个 顶点 的 大 图 ,分 割 成 右边 各 自 包 含 3 
个 项 点 的 A 和 B 两 个 小 图 (图 中 用 虚线 表示 分 割 线 )。 这 样 的 图 分 割 带 来 的 难题 是 : 被 切 
断 的 边 ( 图 中 编号 为 1 和 2 的 两 条 边 ) 所 代表 的 特征 值 该 如 何 处 理 ? 在 原 图 中 相连 的 顶点 
(被 切断 的 边 连接 的 两 端 顶点 ) 在 分 割 成 的 子 图 中 不 再 相连 ,算法 设计 该 如 何 考虑 ? 


4 1 B 


PE 


2 6 
图 13-4 图 分 割 难题 


2. 图 计算 的 全 局 性 要 求 

即使 划分 为 小 图 ,图 计算 问题 也 很 难 在 单个 节点 或 部 分 节点 处 得 到 答案 ,或 者 说 图 计算 
所 需要 的 数据 具有 全 局 性 特点 ,内存 访问 本 地 性 很 少 ,意味 着 大 量 的 节点 间 通 信 。 

3. 图 算法 迭代 循环 

许多 图 计算 问题 的 算法 的 实现 都 带 有 全 局 的 循环 迭代 步骤 (如 求解 单 源 最 短路 径 问题 的 
Dijkstra 算法 中 .最 大 流 / 最 小 割 问题 (MaxFlow Min-Cut 7 .数据 聚 类 K-means W 91) ,这 
对 于 流水 线 型 计算 处 理 方式 是 一 个 难题 。 

MapReduce 模型 的 分 割 数据 集 的 并 行 计算 模式 和 流水 线 型 处 理 流程 很 难 应 对 上 述 图 
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计算 的 难题 。 图 分 割 的 高 关联 度 和 复杂 性 使 得 MapReduce 原 有 的 输入 文件 分 片 (Split) 机 
制 不 可 行 ; 图 计算 的 全 局 性 特点 使 得 MapReduce 基于 Map 和 Reduce 两 个 基本 步骤 的 数 
据 处 理 本 地 化 难以 实现 ; 而 图 算法 的 反复 迭代 导致 大 量 的 L/O 操作 和 节点 间 数 据 交 换 , 性 
能 严重 下 降 。 针 对 MapReduce 模型 在 支持 大 规模 图 计算 处 理 方面 的 不 足 ,工业 界 把 眼光 投 
向 了 针对 图 计算 的 并 行 计算 架构 。Google 推出 了 基于 BSP(Bulk-Synchronous Parallel) 模 
型 中 的 分 布 式 图 计算 框架 Pregel?? , 主要 用 于 支持 图 遍历 BFS"U 、 最 短路 径 SSSPU? 、 
PageRank"? 45 [8 401, Pregel 采用 主 从 架构 体系 ,由 一 个 Master 节点 加 上 大 量 的 Worker 
节点 组 成 。Worker 节点 具有 Active 和 Inactive 两 种 状态 ,Worker 节点 在 Receive Message 
以 后 由 Inactive 状态 进入 Active 状态 ,完成 本 节点 所 承担 的 计算 任务 ,发 送 数据 信息 到 其 
他 节点 ,在 Vote to Halt 后 进入 Inactive 状态 。Master 节点 用 来 控制 任务 的 划分 与 分 配 以 
及 Worker 节点 之 间 的 相互 联系 ,这 样 一 个 大 的 任务 分 散 到 大 量 的 节点 上 并 行 , 加 快 了 计算 
的 速度 。 但 Pregel 不 是 一 个 开源 项 目 ,Google 仅 公布 了 一 些 技术 思路 。 

2012 年 成 为 正式 Apache 开源 项 目的 Hamac3 则 是 一 个 类 似 于 Pregel 的 ,也 是 基于 
BSP 模型 的 图 并 行 计算 框架 。 与 Pregel 不 同 的 是 , Hama 是 在 Hadoop 高 性 能 集群 和 
HDFS 分 布 式 文件 系统 开源 架构 之 上 实现 的 对 大 规模 矩阵 运算 和 PageRank、SSSP、 
K-means 等 图 算法 的 支持 。Hama 设计 了 对 应 于 Master, Worker 的 顶点 类 ,以 及 Job 和 
Task 的 各 个 类 ,采用 BSP 超 步 同 步 机 制 , 通 过 对 图 数据 的 划分 和 分 配 , 以 及 Worker 顶点 上 
的 Job/Task 多 任务 模式 ,实现 了 优 于 MapReduce 的 图 大 数据 并 行 处 理 模式 。 但 Hama H 
前 仅 支 持 PageRank, SSSP, K-means 等 少数 几 种 图 算法 ,其 框架 库 的 图 分 割 方法 和 作业 调 
度 设计 尚 十 分 简单 ,在 为 上 层 图 计算 应 用 开发 提供 一 个 设计 优良 .简便 易 用 的 编程 接口 
(API) 方 面 还 有 许多 工作 要 做 。 

Hama 之 外 的 图 计算 开源 项 目 还 有 Giraph .GraphLab 4. Giraph™® $Œ 2011 年 夏 由 荷 
兰 阿姆斯特丹 Vrije 大 学 研究 生 Claudio Martella 和 几 个 志愿 者 开启 的 项 目 ,目前 已 成 为 
Apache 的 正式 开源 项 目 (http://giraph. apache. org/) , Giraph 在 2013 4E 5 月 发 布 了 第 一 
个 正式 版 本 Giraph 1. 1. 0, 这 一 版 本 的 编译 需要 Java 1. 6,Apache Hadoop 0. 20. 203/0. 20. 
204/0. 20. 1/0. 20. 2/0. 20. 3/Maven 3( 或 更 高 版 本 ) 等 软件 包 的 支持 。 目 前 ,大 型 社交 网 站 
Facebook, Twitter, Linkedin 都 提 到 采用 Giraph 来 进行 社交 网 络 图 谱 分 析 计 算 。Giraph 是 
一 个 基于 BSP 模型 的 模仿 Pregel 的 开源 实现 ,其 设计 要 点 如 下 。 

CD 采用 BSP 模型 的 Superstep 机 制 完成 并 行 计算 的 同步 控制 。 

(2) 运行 在 Hadoop 2. 0 集群 上 ,并 依靠 ZooKeeper 提供 容错 功能 。 

(3) 通过 消息 传递 机 制 完成 数据 交换 ,而 不 需 大 规模 数据 迁移 。 

CA) 提供 针对 图 计算 的 编程 界面 API( 见 后 面 的 Giraph Core package lis 。 

(5) 1.1.0 版 本 增加 或 改进 了 如 下 功能 。 

CD 主 节点 计算 (master computation)。 

@ 共享 集合 器 (shared aggregation)Giraph 在 图 计算 中 提供 一 个 类 似 于 MapReduce 模 
型 的 Reducer 这 样 的 角色 , 它 负 责 把 各 个 Worker 的 中 间 计 算 结 果 进 行 汇 集 再 分 发 。 这 样 
的 aggregator 在 Giraph 架构 中 有 多 个 ,服务 于 多 个 Workers。 

© 基于 边 的 输入 (edge-oriented input) 除 基于 图 顶点 Vertex 的 输入 格式 外 ,还 支持 基 
于 边 Edge 的 图 输入 格式 。 
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@ 核心 模块 之 外 的 计算 (out-of-core computation) 在 图 数据 规模 过 大 ,无 法 全 部 驻 存 于 
内 存 中 时 ,进行 数据 分 割 ,将 一 部 分 数据 存储 于 硬盘 上 。 

Giraph 的 实现 目前 还 有 不 足 : 由 于 Giraph 依赖 于 Hadoop 平台 的 任务 分 发 功能 , 它 的 
Data Locality 并 不 好 ,因为 Hadoop 并 不 保证 正好 把 Giraph Worker 分 派 到 它 所 计算 的 数 
据 块 节点 上 ; 目前 提供 的 算法 支持 还 较 少 , 仅 有 PageRank 和 SSSP 的 算 例 。 

美国 Texas 大 学 的 Jon Allen 基于 SSSP 算法 对 Pregel, Giraph 和 GoldOrb (http: // 
www. goldenorbos. org/) 三 种 图 计算 框架 的 实验 评估 结果 是 (http://wwwrel. ph. utexas. 
edu/Members/jon/golden orb/): Pregel 的 计算 规模 最 大 可 达 1. 67 个 顶点 /每 计算 节点 ， 
即 每 计算 节点 可 处 理 约 1. 67 亿 个 图 顶点 ,而 Giraph 只 达到 约 160 万 个 图 顶点 ,GoldOrb 仅 
达到 约 10 万 个 。 显 然 ,Giraph、GoldenOrb 这 类 仿照 Pregel 的 开源 框架 与 Pregel 相 比 ,在 
计算 规模 上 尚 有 较 大 差距 。 

GraphLab" 引 是 另 一 个 值得 关注 的 针对 机 器 学 习 领 域 的 图 并 行 计算 软件 。GraphLab 
采用 的 是 GAS(Gather-Apply-Scatter) 抽 象 模 型 ,定义 了 可 以 在 节点 上 独立 执行 的 计算 , 侧 
重 机 器 学 习 算法 的 并 行 实现 。 在 GraphLab 的 GAS 模型 中 ,Gather 是 一 个 节点 (Vertex) 从 
相 邻 节点 获取 状态 信息 和 数据 ,Apply 是 节点 计算 与 更 新 ,Scatter 是 通过 与 该 节点 连接 的 
各 条 边 (Edge) 向 相 邻 节点 散发 最 新 信息 。GraphLab 可 在 安装 了 MPI J£ ,PThreads 多 线程 
函数 库 , 以 及 Hadoop 的 集群 上 运行 ,提供 了 一 个 C++API 编程 接口 ,如 图 13-5 所 示 。 





GraphLab API (C++) 


MPI/TCP-IP PThreads Hadoop/HDFS 





Linux Cluster Services (Amazon AWS) 
图 13-5 GraphLab 的 C++API 


与 基于 BSP 模型 的 Pregel, Hama,Giraph 这 类 图 并 行 计算 框架 比较 ,GraphLab 具有 如 
下 特点 。 

(1) GraphLab 采用 了 基于 节点 计算 的 GAS 模型 来 处 理 图 并 行 计算 问题 ,其 并 行 机 制 
与 Pregel/HAMA/Giraph 不 一 样 。 

(2) GraphLab 把 计算 任务 分 解 到 各 个 独立 计算 节点 (Map), 但 各 计算 节点 与 其 相 邻 节 
点 之 间 存 在 data-dependency 和 computation-dependency, 即 某 个 节点 计算 的 下 一 步 还 需 取 
决 于 相 邻 节点 的 计算 状态 。 

(3) 基于 前 述 机 制 ,GraphLab 不 需要 一 个 全 局 时 钟 来 实现 同步 控制 。 

(4) GraphLab 使 用 一 个 edge-cut 算法 来 进行 最 初 的 图 分 割 ,这 个 算法 的 优 劣 会 极 大 影 
响 到 GraphLab 的 性 能 。 

根据 GraphLab 开发 者 在 OSDI 2012 发 表 的 论文 展示 的 结果 ,与 Pregel 比较 ,在 大 规模 
图 数据 条 件 下 GraphLab 的 性 能 不 优 于 Pregel。 

另外 有 一 类 对 图 数据 进行 存储 、 管 理 , 查 询 的 软件 系统 是 所 谓 的 图 数据 库 "9 ,代表 性 产 
品 有 Neo4jin7 ,InfiniteGraph"* ,OrientDBI 等 。 图 数据 库 将 社交 关系 图 (Graph) 描 述 为 点 
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(Vertex) , 边 (Edge) 及 它 的 属性 (Property)。 这 里 “点 ”代表 实体 ,比如 入 企业、 账户 或 其 他 
任何 数据 项 ,类 似 于 关系 数据 库 中 的 数据 记录 或 文档 数据 库 中 的 文件 ;“ 边 ” 则 代表 点 与 点 
之 间 的 关系 ;“ 属 性 ” 则 是 “ 边 ” 所 包含 的 用 户 关注 的 特性 。 

以 人 (Person) .电影 演员 (Actor) ,主演 (Lead Actor) .导演 (Director) .影片 (Film) 组 成 
的 一 个 关系 图 为 例 ( 图 13-6) ,一 个 Person 可 以 是 Actor, 甚 至 是 Lead Actor; 一 部 Film 有 
影片 名 (name) 和 导演 (director) 两 个 属性 ; Film 与 Actor 发 生 关 系 是 因为 Actor 包含 一 个 
属性 是 他 参 演 的 影片 ; Lead Actor 与 Film 发 生 关系 也 是 因为 Lead Actor 的 一 个 属性 是 他 
主演 的 影片 。 这 样 一 个 关系 图 用 关系 型 数据 库 来 表征 则 至 少 需要 4 张 数据 表 ( 图 13-6) ,但 
若 用 图 形 数据 库 来 建 模 则 只 需 两 张 表 ,因为 参 演 、 主 演 关 系 或 导演 关系 已 被 表征 在 连接 
Film 和 Person 两 个 顶点 的 带 特定 属性 的 双向 关系 中 (Directedby 和 ActBy/isLead) 。 
关系 型 数据 库 
Lead Actor 


film(FK) 
person(FK) 





















name 











Actor 






































film(FK) 
person(FK) 
图 形 数据 库 
DirectedBy 
Film k7 Person 
name name 
ActBy(isLead) 


图 13-6 ”关系 型 数据 库 模型 和 图 数据 库 模型 


最 终 , 上 述 社交 关系 网 络 图 可 以 抽象 为 关系 型 数据 库 E-R 图 和 图 数据 库 的 模型 图 
(图 13-7) ,可 以 看 出 ,关系 型 数据 库 E-R 图 中 各 个 实体 之 间 的 连接 线 只 是 单一 地 表征 一 种 
关联 关系 (具体 什么 关系 要 靠 连 接线 两 端的 实体 属性 来 判断 ); 而 图 数据 库 的 连接 关系 本 身 
就 带 有 属性 ,可 以 用 来 表征 不 同 的 实体 间 的 关系 ,这 就 大 大 增强 了 图 数据 库 表达 复杂 关系 网 
络 的 能 力 。 

基于 上 述 的 Vertex-Edge-Property 图 数据 抽象 模型 ,图 形 数据 库 直 接 将 带 有 属性 的 关 
联 关系 定义 并 存储 在 数据 库 中 ,因此 它 擅 长 处 理 多 重 性 高 关联 度 的 数据 ,适合 于 社交 网 络 、 
模式 识别 、 依 赖 分 析 、 推 荐 系统 以 及 路 径 寻 找 等 可 以 表达 为 关系 图 的 问题 。 以 Neo4j 为 代表 
的 图 数据 库 具 有 如 下 特性 。 

CD 对 事务 的 支持 。Neo4j 强制 要 求 每 个 数据 更 改 操作 都 必须 在 一 个 事务 之 内 完成 ， 
以 保证 数据 一 致 性 。 

(2) 基于 BSF 遍历 的 极 强 图 搜索 能 力 。Neo4j 允许 用 户 通 过 Cypher 语言 来 操作 数据 
库 。 该 语言 是 特意 为 图 形 数据 库 操 作 而 设计 .因此 可 以 非常 高 效 地 操作 图 形 数据 库 。 
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关系 型 数据 库 图 形 数据 库 






Relation Type: XXX 
Datal: XXX 
Data2: XXX 





图 13-7 图 数据 库 的 关系 抽象 模型 


(3) 一 定 的 横向 扩展 能 力 。 由 于 图 的 一 个 顶点 常常 和 其 他 多 个 顶点 相关 联 , 因 此 诸如 
Sharding 这 样 的 需要 对 图 进行 切割 的 解决 方案 并 不 现实 。Neo4j 当前 提供 的 横向 扩展 方案 
主要 是 通过 Read Replica 实现 读 写 分 隔 来 进行 的 。 

可 以 看 出 ,从 大 数据 计算 体系 角度 看 ,图 数据 库 更 多 只 是 在 数据 存储 层面 提供 的 一 种 图 
数据 存储 方案 ,比较 适合 于 图 数据 的 高 效 存 储 管理 和 查询 。 但 这 类 产品 并 没有 提供 支持 各 
类 图 算法 的 计算 引擎 ,也 没有 支持 分 布 式 并 行 计算 编程 接口 ,因此 很 难 像 MapReduce 那样 
以 数据 集 切割 、 多 任务 并 行 的 模式 去 处 理 超大 规模 数据 计算 问题 。 因 此 ,我 们 的 重点 还 是 讨 
论 基 于 BSP 模型 的 Pregel, Hama 这 类 图 并 行 计算 架构 。 
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1736 年 ,瑞士 数学 家 和 物理 学 家 欧 拉 发 表 的 柯 尼斯 堡 七 桥 问 题 论文 开辟 了 应 用 数学 的 
一 个 重要 领域 一 一 图 论 (Graph Theory) , 即 通过 研究 图 的 点 和 线 , 及 其 关联 关系 来 解决 实 
际 问题 的 理论 和 方法 。 图 论 的 基本 概念 如 下 。 

图 (Graph) : 由 非 空 顶点 (Vertex) 集 合 V 和 边 (Edge) 集 合 巨 组 成 的 二 元 组 (V, E) 称 为 
图 , 记 为 G=(V,E)。 

无 向 图 : 是 一 个 有 序 二 元 组 (V, E), 记 作 G=(V,E), 其 中 ,V 是 一 个 非 空 集合 ,V 中 的 
元 素 称 为 节点 或 顶点 (Vertex); E 是 无 序 积 V&V 的 多 重子 集 (元 素 可 重复 出 现 的 集合 ) , 称 
为 边 集 ,E 中 的 元 素 称 为 无 向 边 或 简称 边 。 

有 向 图 : 是 一 个 有 序 二 元 组 (V, E), WE G=(V, E) ,其 中,V 是 一 个 非 空 的 节点 或 顶 
点 集 ; E 是 笛 卡 儿 积 VXV 的 多 重子 集 , 其 元 素 称 为 有 向 边 , 也 简称 边 或 弧 。 

简单 图 : 任意 两 顶点 间 最 多 只 有 一 条 边 , 且 不 存在 自 环 的 无 向 图 称 为 简单 图 。 

顶点 度 : G—(V. E) 的 顶点 o 的 度 是 与 v 相连 的 边 的 数目 ( 自 环 边 计 两 次 ), 记 为 
d(v)。 

设 G==<V,E > 为 一 有 向 图 ,vEV,v 作为 边 的 始点 的 次 数 , 称 为 v 的 出 度 , 记 作 d* Co); 
vv 作为 边 的 终点 的 次 数 称 为 v 的 入 度 , 记 作 d Gs o 作为 边 的 端点 的 次 数 称 为 v 的 度数 ， 
简称 度 , 记 作 d CD ,显然 4d(v) 二 d+ w) Hd w). 
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在 上 述 概 念 基础 上 可 进一步 建立 有 限 图 、 完 全 图 、 补 图 、 加 权 图 、 正 则 图 、 子 图 与 母 图 、 超 
图 等 概念 。 

图 论 研究 的 主要 问题 如 下 。 

(1) 子 图 相关 问题 : 包括 子 图 同 构 问 题 ,哈密 顿 回路 问题 ,最 大 团 问题 ,最 大 独立 集 问 
Jt ,平面 图 判定 , 重 构 猜 想 等 。 

(2) 染色 问题 : 包括 点 色 数 , 边 色 数 , 色 多 项 式 ,四 色 问 题 ,完美 图 问题 ,列表 染色 问 
题 等 。 

(3) 路 径 问 题 : 如 柯 尼斯 保 七 桥 问题 ,哈密 顿 回 路 问题 ,最 小 生成 树 问 题 , 中 国 邮 路 问 
题 ,最 短路 问题 ,斯 坦 纳 树 ,旅行 商 问题 等 。 

(4) 网 络 流 问 题 : 包括 最 大 流 问 题 ,最 小 割 问 题 ,最 大 流 最 小 制定 理 ,最 小 费用 最 大 流 
问题 ,二 分 图 及 任意 图 上 的 最 大 匹配 , 带 权 二 分 图 的 最 大 权 匹 配 问 题 。 

(5) 覆盖 问题 : 包含 最 大 团 ,最 大 独立 集 , 最 小 覆盖 集 , 最 小 支配 集 等 问题 。 

与 大 规模 数据 处 理 问题 相关 的 图 计算 方法 ,可 归纳 为 如 下 内 容 和 步 又。 

(1) 定义 图 数据 格式 .包括 输入 数据 和 输出 结果 格式 。 

(2) 建立 图 计算 模型 与 算法 。 

CD 对 于 实际 问题 抽象 出 图 计算 模型 。 

Q 图 算法 设计 。 

O 数学 表达 。 

(3) 图 并 行 计算 的 实现 。 

O 图 分 割 。 

@ 任务 及 计算 资源 调度 。 

@ 计算 迭代 步骤 。 

© 同步 与 通信 机 制 。 

© 容错 机 制 。 

(4) 性 能 优化 。 

图 并 行 计算 从 大 规模 数据 处 理 问 题 到 图 计算 模型 到 算法 实现 的 流程 图 如 图 13-8 所 示 。 
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图 13-8 ”数据 问题 到 算法 实现 流程 图 


例如 ,如 图 13-9 所 示 的 在 有 向 图 中 寻找 顶点 1 到 顶点 3 的 最 短路 径 问 题 ,可 以 将 图 表 
征 为 邻接 矩阵 A, 再 构建 图 向 量 x, 而 上 述 图 最 短路 径 问题 就 转化 为 矩阵 的 迭代 计算 问题 ， 
最 终 获 得 图 中 两 点 间 的 最 短路 径 。 

在 目前 的 大 规模 图 数据 管理 应 用 中 ,主要 采用 简单 图 和 超 图 两 种 数据 模型 ,二 者 的 组 织 
存储 格式 略 有 不 同 ,这 两 种 模型 都 处 理 有 向 图 和 无 向 图 ,默认 情况 下 是 有 向 图 ,而 无 向 图 中 
的 边 可 以 看 作 是 两 条 有 向 边 , 即 有 向 图 的 一 种 ,在 之 后 的 讨论 中 不 再 强调 图 中 边 的 方向 。 目 
前 ,主流 的 图 存储 和 计算 平台 基本 都 采用 简单 图 的 模型 , 故 下 文 不 再 讨论 超 图 。 
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图 13-9 图 问题 与 矩阵 的 转化 


简单 图 模型 的 常用 存储 结构 包括 : 

(1) 邻接 矩阵 ; 

(2) 邻接 表 ; 

(3) 十 字 链 表 ; 

(4) 邻接 多 重 表 。 

从 大 规模 图 处 理 的 应 用 需求 和 维护 的 复杂 程度 考虑 ,邻接 矩阵 和 邻接 表 是 最 常用 的 两 
种 结构 ,采用 邻接 矩阵 表示 图 的 拓扑 结构 ,直观 简洁 ,便于 快速 查找 顶点 之 间 的 关系 ,但 是 邻 
接 矩 阵 的 存储 代价 高 昂 。 对 于 大 规模 图 数据 ,这 个 问题 尤为 严重 ,GBASE 系统 [以 邻接 矩 
阵 的 形式 组 织 存储 图 ,考虑 到 邻接 矩阵 的 存储 开销 ,GBASE 对 和 矩阵 进行 了 聚 簇 分 割 ,尽量 
将 矩阵 中 的 非 零 值 集 中 存储 并 采用 Zip 技术 压缩 编码 ,减少 矩阵 的 存储 代价 。 与 邻接 矩阵 
相 比 ,邻接 表 的 应 用 范围 更 加 广泛 , 像 PageRank 计算 、 最 短路 径 计算 等 应 用 ,并 不 需要 频繁 
查找 两 个 图 顶点 之 间 的 连通 性 ,邻接 表 完 全 可 以 满足 计算 需求 。 邻 接 表 的 存储 开销 很 小 ,好 
辑 简单 ,便于 分 割 处 理 , 是 一 种 比较 理想 的 图 组 织 方式 .Pregel、Hama 和 Hadoop 等 系统 均 
采用 邻接 表 的 形式 组 织 和 存储 图 数据 。 


13.2 BSP 模型 


BSP(Bulk Synchronous Parallel, 整 体 同步 并 行 模型 ) 中 是 英国 科学 家 Leslie G. Valiant 
于 20 世纪 80 年 代 提 出 的 一 个 并 行 计算 模型 逻辑 概念 模型 。 其 组 成 包含 以 下 三 个 部 分 。 

(1) 一 定数 量 的 组 件 , 每 个 组 件 由 处 理 器 和 存储 器 组 成 ,组 件 之 间 相 互 独立 ; 

(2) 路 由 器 ,用 于 实现 各 组 件 之 间 点 对 点 的 消息 传递 ; 

(3) 全 局 时 钟 , 用 于 同步 全 部 或 部 分 的 组 件 。 

BSP 结构 的 逻辑 组 成 如 图 13-10 所 示 。 


mei 组 件 一 组 件 二 组 件 三 


图 13-10 ”BSP 逻辑 结构 组 成 
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BSP 的 核心 思想 是 将 任务 分 步 完 成 ,通过 定义 SuperStep( 超 步 ) ,来 完成 任务 的 分 步 
计算 。 也 就 是 将 一 个 巨大 的 任务 分 解 为 一 定数 量 的 超 步 完成 ,而 在 每 一 个 超 步 内 各 计算 
节点 ( 即 上 面 逻 辑 结构 中 的 组 件 ,这 里 用 Virtual Processor 代表 ) 相 互 独立 地 完成 本 地 的 
计算 任务 ,将 计算 结果 进行 本 地 存储 和 远程 传递 以 后 ,在 全 局 时 钟 的 控制 下 进入 下 一 个 
超 步 。 

BSP 的 工作 原理 如 图 13-11 所 示 ,与 MapReduce 的 Map + Reduce 的 二 元 计算 结构 相 
比较 而 言 ,BSP 结构 则 基于 SuperStep 实现 数据 的 迭代 计算 ,而 且 在 每 一 个 SuperStep 内 通 
过 消息 通信 和 机制 实现 数据 的 异地 传输 。BSP 计算 过 程 可 分 为 以 下 三 个 阶段 。 

本 地 计算 : 在 一 个 超 步 内 ,处 理 器 (Virtual Processor) 从 自身 存储 器 读 取 数 据 进行 
计算 。 

全 局 通信 : 每 个 处 理 器 通过 发 送 和 接收 消息 ,与 远程 节点 交换 数据 。 

栅栏 同步 : 当 一 个 处 理 器 遇 到 栅栏 (Barrier) 时 ,会 停 下 等 到 其 他 所 有 处 理 器 完成 计算 ; 
每 一 次 Barrier 同步 也 是 前 一 个 超 步 的 完成 和 下 一 个 超 步 的 开始 。 

4— Virtual Processors — — 


Local 
Computation 


Global 
Communication 


Barrier 
Synchronization 


图 13-11 BSP 的 超 步 (SuperStep) 结 构 


BSP 并 行 系统 中 超 步 的 实现 采用 了 比较 灵活 的 方式 (如 图 13-12 所 示 ) ,具体 体现 在 以 
下 几 个 方面 。 

(1) 同一 超 步 内 各 个 并 行进 程 的 计算 单元 可 以 设置 为 相同 或 不 相同 (比如 在 Superstep 0 
之 内 ,BSP Peerl 与 BSP Peer 2 都 执行 计算 步骤 A; 但 BSP Peer 3 与 BSP Peer 4 却 执行 不 
同 的 计算 步骤 B; BSP Peer 5 与 BSP Peer 6 执行 计算 步骤 C). 

(2) 不 同 超 步 的 计算 单元 可 以 设置 为 相同 或 不 相同 (比如 在 Superstep 0 和 Superstep 1 
这 两 步 内 ,BSP Peerl 与 BSP Peer 2 执行 不 同 的 计算 步 又 A 和 DD, 但 BSP Peer 5 与 BSP 
Peer 6 却 一 直 执行 相同 的 计算 步骤 C) 。 

(3) 某 些 进程 在 特定 的 超 步 中 可 以 不 必 进行 障 碍 同步 (比如 在 Superstep 0 和 
Superstep 1 之 间 ,BSP Peerl 与 BSP Peer 2 在 遇 到 Barrier Synchronizationer 1 时 需 进 行 障 
碍 同步 ,但 BSP Peer 5 与 BSP Peer 6 却 无 须 同步 。 在 Barrier Synchronizationer 2 时 所 有 进 
程 需要 进行 障碍 同步 ) 。 

这 种 灵活 的 超 步 实现 方式 提供 了 BSP 模型 支持 多 种 图 计算 算法 的 基础 ,目前 基于 BSP 
的 图 计算 引擎 支持 图 处 理 、 和 矩阵 计算 .网 络 算法 等 应 用 ,甚至 把 YARN 集成 到 BSP 框架 
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图 13-12 BSP 超 步 (SuperStep) 实 现 方式 


中 ,也 是 得 益 于 这 种 超 步 实现 方式 。Pregel 和 Giraph 虽然 也 是 基于 BSP 模型 ,但 它们 实 
现 的 超 步 是 一 个 特例 ,其 所 有 超 步 的 计算 单元 都 是 一 致 的 ,因此 只 适合 具有 和 迭代 性 质 的 
图 处 理 。 

BSP 并 行 计算 架 构 也 采用 了 Master/Slave 模式 (图 13-13), 即 在 一 个 主 节点 (Master) 
上 运行 BSPMaster 主 程序 ,而 在 多 个 从 节点 (Slave) 上 运行 多 个 GroomServer 进程 承担 计 
算 处 理 任务 ,这 与 Hadoop 的 Master/Slave 架构 (一 个 HDFS 集群 是 由 一 个 NameNode 和 
一 定数 目的 DataNode 组 成 ) 非 常 相似 ,所 以 BSP 模型 可 以 方便 地 在 Hadoop/ HDFS 架构 基 
础 之 上 实现 。 


BSP Layer 


HDFS Layer 





图 13-13 ”BSP 计算 架构 


目前 ,基于 BSP 模型 的 图 并 行 计算 系统 有 商业 技术 (Google 的 Pregel) 和 开源 技术 
(Apache 的 Hama、Giraph 等 ) 两 条 主线 ,下 面 以 Pregel 和 Hama 为 例 对 它们 的 计算 架构 、 
并 行 计算 模型 和 应 用 编程 接口 进行 介绍 。 
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13.3 Pregel 图 计算 引擎 


1. Pregel 计算 架构 

Pregel 是 Google 公司 推出 的 大 规模 图 并 行 计算 系统 59 ,其 继承 了 BSP 结构 的 基本 原 
理 和 设计 思想 ,将 BSP 概念 结构 真正 用 于 商业 实际 应 用 。Pregel 的 系统 架构 如 图 13-14 所 
示 , 其 计算 系统 仍然 部 署 在 Google 计算 集群 上 ,采用 Master/Slave 结构 , 主 控 服务 器 
(Master) 负 责 计算 任务 的 分 配 .调度 和 管理 ,具体 负责 把 一 个 计算 作业 的 大 图 分 割 成 子 图 
(Sub-graph) ,然后 把 每 个 子 图 作为 一 个 计算 任务 分 发 给 一 个 工作 服务 器 (Worker) 去 执行 
(一 个 Worker 可 能 会 收 到 多 个 计算 任务 ) ,多 个 工作 服务 器 按照 图 13-11 的 超 步 模式 完成 并 
行 计算 。 

Pregel 计算 模型 以 有 向 图 作为 输入 ,有 向 图 的 每 个 顶点 都 有 一 个 String 类 型 的 顶点 
ID, 每 个 顶点 都 有 一 个 可 修改 的 用 户 自 定义 值 与 之 关联 ; 每 条 有 向 边 都 和 其 源 顶 点 关 
联 , 并 记录 了 其 目标 顶点 ID, 边 上 有 一 个 可 修改 的 用 户 自 定义 值 与 之 关联 ,如 图 13-15 
BUR o 

















CD (2) 
TH 子 图 子 图 © © 
图 13-14 Pregel 的 系统 架构 图 13-15 有 向 图 


Pregel 的 计算 架构 如 图 13-16 所 示 。 在 Pregel 的 计算 架构 中 ,用 人 逻辑 上 的 Master 节点 
来 实现 全 局 时 钟 的 同步 及 超 步 的 分 界 , 用 逻辑 上 的 Worker 节点 来 实现 BSP 模型 的 组 件 的 
计算 功能 。Pregel 的 计算 架构 包含 如 下 要 素 。 

1) Mater 

CD. 图 分 割 及 用 户 输入 数据 ; 

(2) 任务 分 配 调 度 ; 

(3) 容错 机 制 。 

2) Worker 

(1) 执行 计算 任务 ; 

(2) 节点 间 通 信 。 
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加 载 、 检 查 点 
图 13-16 Pregel 的 计算 架构 
3) 持久 化 数据 
写 人 分 布 式 文件 系统 (GFS)。 
4) 中 间 数 据 
存在 Worker 本 地 磁盘 上 。 


2. Pregel 并 行 计算 模型 
Master 首先 执行 的 是 图 划分 ,即将 一 个 大 图 按照 某 种 算法 划分 成 多 个 分 区 ,每 个 分 区 

都 包含 一 部 分 顶点 以 及 以 其 为 起 点 的 边 ,Master 则 将 一 个 或 多 个 分 区 分 发 给 每 个 Worker， 
如 图 13-17 所 示 。 一 个 顶点 被 分 配 到 哪个 分 区 由 分 割 
算法 来 决定 的 ,Pregel 使 用 的 默认 分 割 函 数 为 喻 希 函 
数 , 即 
\ 顶点 对 应 分 区 号 = hash(ID) mod N 

Master 


Worker 1 Worker 2 


其 中 ,NN 为 分 区 总 数 ,ID 是 这 个 顶点 的 标识 符 。 另 外 ， 





Graph Pregel 也 容许 用 户 自己 定义 分 割 函 数 。 

toni | Pregel 按 如 下 的 方式 基于 超 步 完成 图 并 行 计算 
Worker 3 处 理 。 
图 13-17 图 划分 (1) 所 有 节点 (Worker) 处 理 的 图 分 区 数据 中 包含 


多 个 图 顶点 Vertex. Worker 对 其 包含 的 每 个 顶点 
(Vertex) 的 计算 .状态 更 新 .顶点 间 同 步 通信 都 是 基于 超 步 SuperStep 来 组 织 ( 图 13-18). 
(2) 在 一 个 超 步 内 .每 个 顶点 (Vertex) 会 调用 用 户 定义 的 函数 进行 计算 ,这 个 计算 过 程 
是 在 各 个 顶点 以 并 行 模式 进行 。 
G) 所 有 的 顶点 的 初始 状态 (SuperStep 0) 均 为 *Active”。 一 个 顶点 在 一 个 超 步 内 完成 
了 它 的 计算 任务 ,没有 下 一 步 计算 要 执行 ,就 可 以 自己 标志 为 “Inactive”, 这 样 它 的 计算 函数 
不 会 再 被 调用 ,除非 它 又 被 激活 ; 一 个 顶点 的 “Inactive” 状 态 可 以 为 男 一 个 顶点 发 送 过 来 的 
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P 4 - ^ | Processing Model: 
rd Partition Pies B 
i All "active"node will be executed 
(single-threaded) Whole processing completed when 
a. No more active node 
b. No more in-transit messages 
















Superstep execution: 


1. Receive message from inbox 
2. Modify node and arc 





properties 

3. Halt self(until new message 
received) 

4. Send messages to other nodes 
(causing them active) 

5. Remove existing or create new 

arcs 











图 13-18 Worker 节点 工作 流程 
消息 而 变 为 *Active”( 即 被 其 他 顶点 的 消息 所 激活 )。 顶 点 的 状态 模型 见 图 13-19, 


Vote to halt 


CC ee 
i c CORNE a 


Message received 


图 13-19 顶点 (Vertex) 状 态 模型 


(4) 每 一 个 超 步 内 各 项 点 的 计算 都 在 节点 本 地 进行 ,各 顶点 计算 是 独立 的 ,没有 对 其 他 
顶点 计算 结果 或 计算 逻辑 上 的 依赖 性 。 

(5) 没有 任何 节点 之 外 的 资源 竞争 ,因此 避免 了 分 布 式 异 步 计 算 系 统 中 容易 发 生 的 
死 锁 。 
(6) 顶点 间 的 通信 被 局 限 在 步骤 之 间 的 Barrier 期 间 完 成 ,其 含义 是 ,每 个 顶点 可 以 在 
超 步 内 送出 给 其 他 顶点 的 消息 ,但 这 些 消息 不 会 马上 处 理 。 当 这 个 超 步 结束 时 下 一 个 超 步 
开始 前 ,所 有 的 项 点 统一 处 理 它们 各 自 收 到 的 消息 。 

(7) 当 所 有 的 顶点 都 进入 “Inactive” 状 态 , 且 没 有 消息 传递 时 ,Master 即 可 决定 这 个 作 
业已 结束 。 


递 模式 ,不 包含 远程 数据 读 取 或 共享 内 存 的 方式 ,这 是 因为 两 个 原因 : 一 是 消息 传递 模型 足 
够 满足 各 类 图 算法 的 通信 需要 ; 二 是 出 于 性 能 的 考虑 。 在 分 布 式 环 境 中 从 远程 机 器 上 读 取 
一 个 值 伴随 有 很 高 的 时 间 延 迟 。 采 用 消息 传递 模式 通过 异步 方式 传输 批量 消息 ,可 以 减少 
远程 数据 交换 的 次 数 ,减少 时 间 延 迟 。 

可 以 看 出 ,Pregel 的 图 并 行 计算 模型 的 核心 设计 基于 两 点 : 四 局 限于 顶点 本 地 的 迭代 
循环 计算 避免 了 大 量 的 远程 数据 读 取 , 避 免 了 巨大 的 网 络 开销 ; @ 超 步 内 不 进行 顶点 间 
IPCCInter-Process Communication) ,而 把 通信 环节 集中 在 超 步 之 间 (Barrier 期 内 ,此 时 所 有 
超 步 均 做 通信 ) ,这 就 消除 了 不 同 项 点 计算 进程 在 数据 上 或 逻辑 上 的 依赖 性 或 顺序 相关 性 ， 
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有 利于 分 布 式 并 行 计算 实现 。 

下 面 以 最 大 值 问题 为 例 说 明 上 述 并 行 模型 : 给 定 一 个 有 向 连通 图 ,图 中 每 个 顶点 都 包 
含 一 个 值 , 它 需要 将 最 大 值 传播 到 每 个 顶点 。 在 每 个 步骤 中 ,顶点 会 从 接收 到 的 消息 中 选 出 
一 个 最 大 值 ,并 将 这 个 值 传送 给 其 所 有 的 相 邻 顶点 。 当 某 个 步骤 已 经 没有 顶点 更 新 其 包含 
值 ,那么 计算 就 告 结束 。 

按照 Pregel 的 设计 ,所 有 的 项 点 值 的 更 新 都 在 超 步 内 ; 每 个 顶点 只 在 超 步 结 束 时 向 其 
所 有 邻接 点 发 送 消息 (传送 顶点 值 ); 当 一 个 项 点 收 到 的 消息 中 含有 值 比 它 的 目前 值 大 , 则 
用 最 大 的 一 个 值 替换 它 的 目前 值 ,状态 设置 为 活跃”, 否则 就 将 状态 改 为 “ 非 活 跃 ”; 当 所 有 
顶点 状态 为 “ 非 活路 "时 ,计算 结束 。 最 大 值 问 题 的 具体 计算 步骤 如 下 (如 图 13-20 所 示 )。 











图 13-20 最 大 值 算 例 


超 步 0: A,B,C,D 4 个 顶点 状态 均 设 为 “活跃 ”", 各 自 包 含 一 个 初始 值 。 

超 步 1: A 向 B 传 送 值 3; A 接收 B 的 消息 值 6, 用 6 替代 目前 值 3,A 保持 为 “活跃 >; B 
向 A 和 也 传送 值 6,B 接收 C 的 消息 值 2,B 值 不 改变 ,状态 变 为 “ 非 活 跃 ”; C 向 B 和 DD 传送 
值 2,C 接收 D 的 消息 值 1,C 值 不 改变 ,状态 变 为 * 非 活跃 ">; D 向 C 传送 值 1,D 接收 A 的 消 
息 值 6, 用 6 蔡 代目 前 值 1,D 保持 为 “活跃 ”。 

超 步 1 结束 时 ,A,B,C,D 4 个 顶点 状态 分 别 为 “活跃 ”“ 非 活跃 “ 非 活 路 “活跃 ”; 

超 步 2: 我 们 只 对 状态 是 “活跃 ”的 顶点 执行 操作 ,A 向 B 传 送 值 6,A 自己 没收 到 消息 ， 
不 需要 做 比较 更 新 ,因此 状态 变 为 “ 非 活跃 ”; D 向 C 传送 值 6,C 收 到 消息 被 激活 ,用 6 TEN 
目前 值 2,C 的 状态 重新 设 为 “活跃 ”; D 自己 没收 到 消息 ,不 需 做 比较 更 新 ,因此 状态 变 为 
“ 非 活跃 ”。 

超 步 2 结束 时 ,A,B,C,D 4 个 顶点 状态 分 别 为 “ 非 活 路 “ 非 活 路 “活跃”“ 非 活跃 ”。 

超 步 3: 此 时 只 有 顶点 C 状态 是 “活跃 ”, 只 需 对 顶点 C 执行 操作 ,C 向 B 传 送 值 6,C A 
己 没 收 到 消息 ,不 需 做 更 新 ,因此 状态 又 变 为 “ 非 活跃”; B 收 到 消息 值 6, 但 6 并 不 比 它 的 目 
前 值 6 大 ,因此 B 不 更 新 ,状态 仍然 为 “ 非 活 跃 ”。 

超 步 3 结束 时 ,A,B,C,D 4 个 顶点 状态 全 部 为 “ 非 活跃 ”, 且 下 一 步 无 消息 产生 (只 有 
“活跃 ”状态 的 顶点 才能 发 消息 ) ,至 此 计算 全 部 结束 。 

在 超 步 计算 之 间 ,一 个 节点 (Worker) 上 的 多 个 顶点 (Vertex) 可 能 同时 向 另 一 个 节点 
(Worker) 上 的 顶点 发 送 消息 .比如 图 13-20 ,在 超 步 0 与 超 步 1 之 间 , 顶 点 BB 和 C 都 向 顶点 
DD 发 送 消息 。 但 在 某 些 算法 中 ,接收 顶点 需要 的 并 不 是 每 一 个 发 送 顶 点 的 单独 值 ,而 可 能 是 
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其 中 的 最 大 值 ( 比 如 图 13-20 的 算 例 ) 或 是 求 和 值 ,在 这 种 情况 下 ,Pregel 提供 了 Combiner 
机 制 来 合并 发 出 消息 ,使 得 多 个 顶点 发 给 同一 目标 点 的 多 个 消息 合并 成 一 条 消息 ,从 而 减少 
消息 传递 开销 ,降低 网 络 流量 负担 。 这 种 Combiner 功能 可 以 在 发 送 端 实现 (将 多 条 发 出 消 
息 合 并 为 一 条 ) ,也 可 以 在 接收 端 实现 (将 接收 到 的 发 送 给 同一 顶点 的 多 条 消息 合并 为 一 
条 ) ,如 图 13-21 所 示 。 应 注意 到 接收 端 Combiner 机 制 并 未 降低 网 络 传送 流量 ,而 只 是 加 快 
了 接收 端的 处 理 速 度 。 

Worker 1 Worker 2 


Combiner 






















Combiner 








Worker 3 








Combiner 


d 


图 13-21 消息 发 送 的 Combine 机 制 


据 Google 研究 者 报道 ,对 于 比如 单 源 最 短路 径 加 这 种 算法 ,使 用 Combiner 将 网 络 流量 
降低 了 4 倍 多 Co 。 

另外 ,Pregel 提供 一 种 Aggregator 机 制 来 实现 并 行 计 算 系 统 的 全 局 通信 、 状 态 监 控 和 
数据 查看 。Pregel 使 用 如 图 13-22 所 示 的 树 状 结构 来 实现 Aggregator 功能 , 即 在 一 个 超 步 




















据 , 系 统 会 使 用 一 种 Reduce 操作 来 聚合 这 些 数据 ,产生 的 值 在 超 步 S 结束 时 向 更 高 一 级 的 
Aggregator 传送 。 聚 合 产生 值 将 会 对 所 有 的 顶点 在 超 步 S 十 1 中 可 见 。Pregel 提供 一 些 预 
先 定义 的 Aggregators, 如 可 以 在 各 种 整数 和 String 类 型 上 执行 min, max, sum 等 操作 的 





图 13-22 Aggregator 的 树 状 结构 


E 大 数据 分 析 与 计算 


Aggregator。 

Aggregators 可 以 用 来 做 统计 计算 。 例 如 ,一 个 Sum Aggregator 可 以 用 来 统计 每 个 顶 
点 的 出 度 , 最 后 求 和 就 是 整个 图 的 边 数 。 更 复杂 的 一 些 Reduce 操作 还 可 以 产生 统计 直方 
El. Aggregators 也 可 以 用 来 做 全 局 协同 。 例 如 ,Compute() 函 数 的 一 些 逻 辑 分 支 在 超 步 中 
的 执行 条 件 可 由 Aggregator 来 决定 ,只 有 执行 AND 逻辑 的 Aggregator 表明 所 有 顶点 都 满 
足 了 某 条 件 之 后 , 才 执 行 这 些 逻 辑 分 支 。 又 比如 一 个 对 顶点 ID 进行 min 和 max 操作 的 
Aggregator, 可 以 用 来 选 出 某 个 顶点 在 整个 计算 过 程 中 扮演 某 种 角色 等 。 

要 定义 一 个 新 的 Aggregator, 用 户 需 要 继承 并 实现 Aggregator 抽象 类 ,并 定义 第 一 次 
接收 到 输入 值 时 如 何 初始 化 , 以 及 如 何 将 接收 到 的 多 个 值 最 后 Reduce 成 一 个 值 。 
Aggregator 操作 也 应 该 满足 交换 律 和 结合 律 。 

默认 情况 下 ,一 个 Aggregator 仅仅 会 对 来 自 同一 个 超 步 的 输入 值 进行 聚合 ,但 是 有 时 
也 可 能 需要 定义 一 个 Sticky Aggregator: 它 可 以 从 所 有 的 超 步 中 接收 数据 。 这 是 非常 有 用 
的 ,比如 要 维护 全 局 的 边 数目 ,那么 就 仅仅 在 增加 和 删除 边 的 时 候 才 改写 这 个 值 。 这 种 涉及 
全 局 性 数值 的 Global Aggregator 最 后 把 产生 值 发 送 给 集群 Master。 

3. 拓扑 改变 与 容错 机 制 

Pregel 允许 用 户 在 自 定义 函数 Compute() 中 定义 操作 修改 图 的 拓扑 结构 ,比如 在 图 中 
增加 /删除 边 或 项 点。 对 于 全 局 拓扑 改变 ,Pregel 采用 了 惰性 协调 机 制 ,在 改变 请 求 发 出 时 ， 
Pregel 不 会 对 这 些 操 作 进行 协调 ,只 有 当 这 些 改变 请 求 到 达 目 标 顶 点 并 被 执行 时 ,Pregel 才 
会 对 这 些 操作 进行 协调 ,这 样 ,所 有 针对 某 个 顶点 v 的 拓扑 修改 操作 所 引发 的 冲突 ,都 会 由 
该 项 点 自己 来 处 理 。 本 地 的 局 部 拓扑 改变 是 不 会 引发 冲突 的 ,而 且 顶 点 或 边 的 本 地 增 减 
能 够 立即 生效 ,很 大 程度 上 简化 了 分 布 式 编程 。 

在 超 步 中 发 生 拓扑 变化 时 ,其 变化 顺序 如 下 。 

(1) 删除 操作 在 添加 操作 之 前 。 

(2) 删除 边 操作 在 删除 顶点 操作 之 前 。 

(3) 添加 顶点 操作 在 添加 边 操作 之 前 。 

这 种 局 部 有 序 性 解决 了 很 多 可 能 的 分 布 式 操作 冲突 ,剩余 的 冲突 可 由 用 户 自 定义 的 
Handlers 解决 ,同一 种 Handler 机 制 将 被 用 于 解决 由 于 多 个 顶点 删除 请 求 或 多 个 边 增加 请 
求 或 删除 请 求 而 造成 的 冲突 。 

Pregel 的 容错 机 制 包括 如 下 4 个 操作 。 

D 设置 检测 点 (checkpointing) 

在 每 个 超 步 的 开始 阶段 , Master 指示 Worker 保存 它 持 有 的 Partitions 状态 数据 并 持 
久 存 储 ( 写 入 文件 系统 ) ,这 些 数据 包括 顶点 值 、 边 值 ,以 及 接收 到 的 消息 。 

2) 故障 检测 

Master 通过 ping 方式 检测 Worker 故障 。 

3) 故障 恢复 

当 一 个 或 多 个 Worker 出 现 故障 时 ,和 它们 关联 的 分 区 的 当前 状态 数据 就 会 丢失 ， 
Master 会 重新 分 配 Partition 到 当前 可 用 的 Worker 上 。 所 有 的 Partition 会 从 最 近 的 超 步 
的 CheckPoint 点 重新 加 载 状态 数据 ,该 超 步 可 能 比 出 故障 的 Worker 最 后 运行 的 超 步 要 早 
许多 ,整个 系统 从 该 超 步 重新 开始 。 
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4) 有 限 恢复 (Confined recovery) 

一 种 降低 执行 开销 和 延迟 的 故障 恢复 方式 。 除 了 基本 的 CheckPoint 信息 , Worker 同 
时 还 会 将 图 加 载 分 区 信息 和 超 步 中 发 送出 去 的 消息 写 和 日志, 这 样 故障 侈 复 就 会 限制 于 丢 
掉 数 据 的 那些 分 区 。 

4. 应 用 编程 接口 

一 个 典型 的 Pregel 程序 过 程 如 下 。 

(1) Pregel 计算 输入 是 一 个 有 向 图 , 当 图 被 初始 化 好 后 ,运行 一 系列 的 SuperSteps, 直 
到 整个 计算 结束 ,输出 结果 。 

(2) 在 每 一 个 SuperStep, 顶 点 上 的 计算 都 是 并 行进 行 的 ,每 个 顶点 都 独立 执行 用 户 定 
义 的 Compute() 函 数 。 通 过 这 个 函数 每 个 顶点 可 以 修改 其 自身 的 状态 信息 ,或 以 它 为 起 点 
的 边 的 信息 ,或 者 修改 图 的 拓扑 结构 。 

(3) Compute() 的 计算 是 基于 顶点 ,而 不 是 边 ,因此 边 在 这 种 计算 模式 中 不 是 核心 , 没 
有 围绕 边 的 计算 处 理 。 

CD 整个 计算 结果 的 输出 是 所 有 顶点 输出 的 集合 。 通 常 来 说 ,Pregel 程序 的 输出 是 跟 
输入 时 同 构 的 有 向 图 ,但 也 并 非 一定 是 这 样 , 比 如 聚 类 算法 ,输出 结果 可 能 是 从 一 个 大 图 中 
选 出 满足 需求 的 几 个 不 相连 的 顶点 。 一 个 对 图 挖掘 算法 的 计算 结果 可 能 仅仅 是 图 挖掘 产生 
的 聚合 数据 等 。 

Pregel 提供 的 编程 接口 主要 是 Vertex 这 个 类 ,编写 一 个 Pregel 程序 需要 继承 这 个 基 
类 并 根据 算法 设计 重 写 (Override) 这 个 类 的 函数 接口 。Vertex 类 如 下 所 示 。 

template < typename VertexValue, typename EdgeValue, typename MessageValue > class Vertex { 

public:virtual void Compute(MessageIterator * msgs) = 0; 

const string& vertex id() const; 

int64 superstep() const; 

const VertexValue& GetValue(); 

VertexValue * MutableValue(); 

OutEdgeIterator GetOutEdgeIterator(); 

void SendMessageTo(const string& dest vertex, const MessageValue& message); 
void VoteToHalt(); 

}; 

Vertex 类 定义 了 三 个 类 型 的 参数 : VertexValue、EdgeValue、MessageValue, 分 别 表 示 
顶点 、 边 和 消息 。 每 一 个 顶点 都 有 一 个 VertexValue 类 型 值 与 之 对 应 ,都 有 一 个 String 类 型 
的 Vertex Identifier, 每 个 顶点 都 带 有 一 些 可 以 被 修改 的 属性 ,其 初始 值 由 用 户 定义 。 每 一 
条 边 也 带 有 一 个 EdgeValue 类 型 值 .由 于 Pregel 处 理 的 是 有 向 图 ,所 以 边 都 是 有 向 边 ,都 包 
含 一 个 起 源 顶 点 ,并且 也 拥有 一 些 用 户 定义 的 属性 和 值 , 还 同时 记录 了 其 终端 顶点 的 ID. 
MessageValue 类 型 则 装载 了 从 该 顶点 发 出 的 消息 所 包含 的 信息 。 

在 每 一 个 超 步 开 始 时 ,系统 会 为 每 一 个 顶点 准备 好 它 需 要 处 理 的 前 一 个 超 步 内 其 他 项 
点 发 给 它 的 消息 ,装载 在 Messagelterator 类 型 队列 中 , 它 需 要 调用 自己 的 Compute O X 
对 其 进行 处 理 。Pregel 提供 的 Vertex: : Compute O 函数 只 是 一 个 接口 ,用户 在 编写 Pregel 
程序 时 必须 根据 自己 设计 的 算法 需要 对 其 重 写实 现 。 要 注意 到 ,在 Pregel 程序 运行 时 ,每 
个 超 步 内 每 个 顶点 的 ComputeO 函数 都 会 被 并 行 调用 执行 。 在 一 个 顶点 内 Pregel 另外 提 
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HET GetValue() 和 MutableValue() 两 个 函数 来 分 别 读 取 顶 点 当前 值 和 修改 顶点 值 。 

Pregel 提供 了 GetOutEdgelterator() 方 法 来 获取 一 个 顶点 的 邻接 边 列表 ,应 用 程序 可 
以 通过 这 个 接口 来 获取 一 个 顶点 的 邻接 边 信 息 或 是 修改 邻接 边 列表 数据 (可 能 导致 图 拓扑 
的 改变 ) 。 

SendMessageTo() 方 法 被 用 来 向 其 他 顶点 发 送 消息 ,每 条 消息 (MessageValue 类 型 ) 都 
包含 消息 装载 值 和 目标 顶点 名 称 。 需 注意 Pregel 的 消息 迭代 器 能 保证 消息 一 定 会 被 传送 
且 不 重复 ,但 并 不 保证 消息 的 发 送 或 接收 顺序 。 

对 于 图 13-20 的 最 大 值 算 例 ,应 用 程序 实现 的 ComputeO 函数 代码 如 下 。 


class MaxFindVertex 
: public vertex < double, void, double» ( 


public: 

virtual void Compute(MessageIterator * msgs) ( 
intcurrMax - GetValue(); // 节 点 保存 了 到 目前 为 止 看 到 的 最 大 值 
SendMessageToAllNeighbors (currMax); // 将 当前 的 最 大 值 通 过 消息 传播 出 去 


/* 从 当前 消息 队列 查找 是 否 有 比 当前 值 更 大 的 值 * / 
for ( ; !msgs 一 >Done(); msgs 一 >Next() ) { 

if (msgs—> Value() > currMax) 

currMax = msgs -> value(); 

} 
if (currMax > GetValue()) 

* MutableValue() = currMax; 
else 

voteToHalt(); 
) 

}; 

需要 注意 的 是 , Compute CO 代码 的 第 三 步 即 调用 SendMessageToAllNeighbors 
(currMax) 试 图 将 当前 的 最 大 值 通过 消息 传播 出 去 ,而 此 时 该 顶点 尚未 处 理 完 输入 消息 
(msgs) ,尚未 确定 当前 最 大 值 ,这 是 何 原因 ? 

前 面 在 介绍 Pregel 的 并 行 计算 步骤 时 提 到 .在 一 个 超 步 内 一 个 Worker 上 的 顶点 可 以 
随时 向 其 他 顶点 (包括 其 他 Worker 上 的 项 点) 发 送 消息 ,但 这 些 消 息 不 会 即 发 即 送 ,而 是 
排列 在 一 个 等 待 队 列 中 ,直到 本 超 步 结束 时 才 一 起 发 送 ,这 样 接 收 消 息 的 顶点 就 可 在 
下 一 个 超 步 开始 时 对 这 些 消 息 进 行 处 理 。 因 此 ,在 Compute() 函 数 内 即使 一 开始 
SendMessageToAllNeighbors() 被 调用 ,但 真正 处 理 执行 时 间 是 在 超 步 结束 时 ,这 是 分 布 式 
计算 系统 异步 模式 的 一 个 特点 。 

下 面 是 SSSP( 单 源 最 短路 径 算法 ) 的 ComputeO 函数 实现 ,可 以 看 出 程序 从 前 一 个 超 步 
接收 的 消息 队列 中 查找 目前 最 短路 径 ,如 果 有 ,更 新 顶点 值 ,然后 将 新 的 最 短路 径 通 过 调用 
SendMessageTo() 函 数 传播 出 去 。 


class ShortestPathVertex 
:public Vertex < int, int, int» ( 
void Compute(Messagelterator * msgs) ( 
int mindist = IsSource(vertex id()) ? 0 : INF; 
for (; !msgs - » Done() ; nsgs - » Next()) 
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mindist = min(mindist, msgs -» Value()); 
if (mindist « GetValue()) ( 
* MutableValue() = mindist; 
OutEdgelterator iter = GetOutEdgeIterator(); 
for (; ! iter.Done(); iter.Next()) 
SendMessageTo( iter. Target(), 
mindist * iter.GetValue()); 


) 
VoteToHalt(); 


) 
}; 
前 面 提 到 Pregel 提供 了 Combiner 机 制 来 合并 发 出 消息 ,使 得 多 个 顶点 发 给 同一 目标 
点 的 多 个 消息 合并 成 一 条 消息 发 出 。 下 面 是 一 个 将 多 个 消息 值 合并 , 找 出 最 小 值 的 
Combine O RHIF o 


class MinIntCombiner : public Combiner < int» { 
virtual void Combine(MessageIterator * msgs) { 
int mindist = INF; 
for (; !msgs 一 > Done(); msgs - » Next()) 
mindist = min(mindist，msgs 一 > Value()); 
Output("combined source", mindist); 
) 

}; 

需 注意 ,默认 情况 下 Pregel 不 会 开启 Combine 功能 ,因为 通常 很 难 找到 一 种 对 所 有 顶 
点 的 Compute() 函 数 都 适用 的 Combiner, 因 此 需要 由 用 户 自己 来 决定 是 否 开 启 Combine 
功能 。 用 户 可 以 像 上 面 代码 那样 通过 继承 Combiner 类 并 重 写 自己 的 Combine() 方 法 来 启 
用 自己 的 Combiner, 通 常 只 对 那些 满足 交换 律 和 结合 律 的 操作 才 可 以 进行 合并 ,因为 只 有 
交换 律 和 结合 律 的 合并 才 不 会 影响 最 终结 果 的 正确 性 。 

5. PageRank 算法 的 Pregel 实现 


PageRank 算法 作为 Google 的 网 页 链接 排名 算法 5 .具体 公式 如 下 : 
h PR, 
PR— 8?) Le uec 

对 任意 一 个 链接 ,其 PR 值 为 链 入 到 该 链接 的 源 链接 的 PR 值 对 该 链接 的 贡献 和 (分 母 
N: 为 第 i 个 源 链 接 的 链 出 度 ) Pregel 的 计算 模型 主要 来 源 于 BSP 并 行 计算 模型 的 启发 。 
要 用 Pregel 计算 模型 实现 PageRank 算法 ,也 就 是 将 网 页 排名 
算法 映射 到 图 计算 中 ,这 其 实 是 很 自然 的 ,网 络 链接 就 是 一 个 Gf — X) 
连通 图 。 

图 13-23 就 是 由 4 个 网 页 (A, B. C. D) 互 相 链 入 链 出 关 
系 组 成 的 一 个 连通 图 。 根 据 Pregel 的 计算 模型 ,将 计算 定义 
到 顶点 (Vertex) 即 A, B. C. D 上 ,每 一 个 对 象 即 对 应 一 个 计 
算 单 元 ,每 一 个 计算 单元 包含 以 下 4 个 成 员 变量 。 O © 

(1) Vertex value: 顶点 对 应 的 PR 值 。 

(2) Out edge: 只 需要 表示 一 条 边 , 可 以 不 取 值 。 图 13-23 ”网 页 链接 关系 连通 图 
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(3) Message: 传递 的 消息 ,因为 需要 将 本 Vertex 对 其 他 Vertex 的 PR 贡献 传递 给 目 
标 Vertex, 每 一 个 计算 单元 包含 一 个 成 员 函 数 。 
(4) Compute; 该 函数 定义 了 Vertex 上 的 运算 .包括 该 Vertex 的 PR 值 计算 ,以 及 从 该 
Vertex 发 送 消 息 到 其 链 出 Vertex。 
class PageRankVertex: public Vertex < double, void, double» ( 
public: 
virtual void Compute(Messagelterator * msgs) { 
if (superstep() >= 1)( 
double sum = 0; 
for (; !msgs - » Done(); msgs - » Next()) 
sum += msgs -» Value(); 
* MutableValue() = 0.15 / NumVertices() + 0.85 * sum; 
) 
if (superstep() « 30) ( 
const int64 n = GetOutEdgeIterator().size(); 
SendMessageToAllNeighbors(GetValue() / n); 
) 
else( 
VoteToHalt(); 
) 


h 


Pregel 的 执行 包含 PageRankVertex 类 , 它 继承 了 Vertex 类 。 

(1) 该 类 顶点 值 的 类 型 是 double, 用 来 存储 暂 定 的 PageRank, 消 息 类 型 也 是 double, 用 
来 传递 PageRank 的 部 分 。 

(2) 图 在 第 0 个 超 步 中 被 初始 化 ,所 以 它 的 每 个 顶点 值 为 1.0。 

(3) 在 每 个 超 步 中 ,每 个 顶点 都 会 沿 着 它 的 出 射 边 发 送 它 的 PageRank 值 除 以 出 射 边 数 
后 的 结果 值 。 

(4) 从 第 一 个 超 步 开始 ,每 个 顶点 会 将 到 达 的 消息 中 的 值 加 到 sum. 值 中 ,同时 将 它 的 
PageRank fii Jj 0. 15/ NumVertices() 十 0. 85 X sum, 

(5) 为 了 收敛 ,可 以 设置 一 个 超 步 数量 的 限制 或 用 Aggregators 来 检查 是 否 满足 收敛 条 件 。 

简单 地 讲 ,Pregel 将 PageRank 处 理 对 象 看 成 是 连通 图 ,而 MapReduce 则 将 其 看 成 是 
Key-Value 对 。Pregel 将 计算 细 化 到 顶点 Vertex, 同 时 在 Vertex 内 控制 循环 迭代 次 数 , 而 
MapReduce 则 将 计算 批量 化 处 理 , 按 任务 进行 循环 迭代 控制 。PageRank 算法 如 果 用 
MapReduce 实现 ,需要 一 系列 的 MapReduce 的 调用 。 从 一 个 阶段 到 下 一 个 阶段 , 它 需 要 传 
递 整 个 图 的 状态 ,这 样 就 需要 许多 的 通信 和 随 之 而 来 的 序列 化 和 反 序 列 化 的 开销 。 另 外 ,这 
一 连 串 的 MapReduce 作业 各 执行 阶段 需要 的 协同 工作 也 增加 了 编程 复杂 度 , 而 Pregel 使 
用 超 步 简化 了 这 个 过 程 。 


13.4 Hama 开源 框架 


Hama( 取 Hadoop Matrix 的 前 两 个 字母 组 合 ) 是 韩国 人 Edward J. Yoon 于 2008 年 发 
起 的 一 个 基于 BSP 模型 的 图 计算 Apache 开源 培育 项 目 53] ,并 在 2012 年 成 为 Apache 的 正 
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Am H Chttp: //hama. apache. org/index. html), Hama 实际 上 是 一 个 高 性 能 集群 上 基于 
BSP 并 行 模型 和 Hadoop 平台 构建 的 分 布 式 并 行 计算 框架 ,支持 如 下 领域 的 大 规模 数据 处 
理 计 算 。 

CD 大 规模 矩阵 运算 。 

(2) 机 器 学 习 (K-means Clustering,Decision Tree) 。 

(3) 图 计算 (BFS，PageRank，Bipartite Matching，SSSP, 最 大 流 最 小 割 (MF-MC) 算 
法 等 ) 。 

(4) 网 络 算法 (神经 网 络 ,社交 网 络 分 析 , 网 络 实时 流量 监测 等 ) 。 

Hama 支持 的 各 类 算法 和 应 用 领域 如 图 13-24 所 示 。 
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图 13-24 Hama 实现 的 算法 和 应 用 领域 


Hama 的 系统 架构 见 图 13-25。 早 期 的 Hama Core 版 本 依赖 于 Hadoop 的 ZooKeeper 
提供 集群 资源 管理 和 作业 调度 。 在 0. 6. 0 版 本 之 后 ,Hama 改变 其 结构 (图 13-26) 与 YARN 
相 适 应 ,并且 从 大 规模 矩阵 运算 .图 并 行 处 理 扩张 到 了 支持 深度 学 习 算 法 。 作 为 一 个 中 间 件 
层 的 图 并 行 计算 框架 库 , Hama 具有 如 下 特点 。 

CD 运行 在 高 性 能 集群 架构 上 ,底层 数据 存储 与 集群 管理 依赖 于 HDFS/Hadoop 系统 ， 
使 用 Hadoop RPC 和 Avro RPC 来 实现 节点 间 通 信 。 

(2) 并 行 计算 基于 BSP 超 步 概念 。 图 13-27(a) 在 垂直 方向 上 表示 Hama 的 输入 数据 来 
自 HDFS, 结 果 数 据 也 输出 到 HDFS; 图 13-27(b) 则 在 水 平方 向 上 描绘 了 BSP 模型 的 
Barrier 以 及 夹 在 两 个 Barriers 之 间 的 超 步 计算 ,Hama 仍然 包含 超 步 本 地 计算 .全 局 通信 及 
Barrier 同步 三 个 阶段 。 

(3) Hama 的 运行 环境 需要 Hadoop 平台 的 ZooKeeper 和 HDFS 的 支持 ,在 Hadoop 2. 0 
之 后 Hama 可 以 在 YARN 环境 中 运行 。 

1. Hama 计算 架构 


Hama 的 计算 架构 仍然 采用 了 Master/Slave 模式 , 即 有 一 个 主 程序 运行 在 一 个 集群 主 
控 节 点 (Master) 上 ,有 多 个 计算 程序 运行 在 多 个 计算 节点 (CSlave) Ee Hama 的 软件 组 成 主 
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图 13-25 Hama Core 系统 架构 ( 较 早 版 本 ) 
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图 13-26 Hama on YARN 的 系统 架构 
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(a) 超 步 模型 (垂直 方向 ) 
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(b) 超 步 模型 (水 平方 向 ) 


图 13-27 Hama 的 超 步 模型 
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要 包括 三 部 分 : BSPMaster,GroomServer 和 ZooKeeper, 如 图 13-28(a) 中 的 蓝 色 模块 所 示 。 
其 中 ,BSPMaster( 主 程序 ) 和 ZooKeeper( 集 群 管理 调度 程序 ) 运 行 于 主 节 点 (Hadoop 集群 
的 NameNode) ,GroomServer( 计 算 程 序 ) 则 运行 在 从 节点 上 (DataNode) 。 

在 新 版 本 的 Hama 计算 结构 中 (图 13-28 Cb) ,原来 的 BSPMaster 被 BSP AppMaster 
替代 ,GroomServer 则 改写 成 了 BSPRunner, 相 应 的 程序 也 进行 了 改写 ,以 匹配 YARN 运行 
环境 。 


alient Resource Manager 
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Node Manager 


Application Master. 


ZooKeeper 
GroomServer 


Node Manager Node Manager Node Manager 
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(a) Hama Core (b) Hama on YARN 


图 13-28 ”Hama 计算 架构 


1) BSPMaster 

Hama 主 节点 程序 。BSPMaster 主 节点 负责 管理 集群 中 的 其 他 各 个 GroomServer 从 节 
点 。 在 集群 刚 启动 时 ,各 个 GroomServer 节点 需 通过 RPC 在 BSPMaster 节点 处 进行 注册 ， 
并 向 其 汇报 GroomServer 节点 当前 所 具有 的 资源 数量 (Task Slot 的 数目 ),BSPMaster 会 
为 每 一 个 GroomServer 及 Task Slot 分 配 ID。BSPMaster 节点 还 负责 作业 的 调度 及 分 配 工 
作 , 具 体 的 计算 任务 则 分 配 到 GroomServer 节点 上 运行 。 因 此 ,一 台 BSPMaster 服务 器 就 
可 以 负责 管理 一 个 较 大 规模 的 集群 。BSPMaster 节点 具体 负责 的 工作 如 下 。 

(1) 维护 其 自身 的 各 种 状态 信息 。 

(2) 维护 各 个 GroomServer 服务 器 的 状态 。 

(3) 控制 集群 环境 中 的 超 步 (SuperStep) 及 各 类 计数 器 (Counter) 。 

(4) 管理 在 集群 中 运行 的 作业 及 任务 。 

(5) 调度 任务 到 GroomServer 节点 ,分 配 任务 并 向 各 GroomServer 发 送 执行 任务 的 
指令 。 

(6) 为 用 户 提供 集群 的 管理 界面 。 

2) GroomServer 

GroomServer 是 一 个 运行 在 计算 节点 上 的 进程 ,负责 执行 计算 任务 (Task) 和 管理 任务 
运行 生命 周期 。 每 一 个 GroomServer 都 与 BSPMaster 进行 通信 ,获取 任务 并 报告 状态 。 
GroomServer 需要 Hadoop/HDFS 运行 环境 支持 ,通常 GroomServer 运行 在 Hadoop 的 
DataNode 上 ,以 保证 获得 最 佳 性 能 。GroomServer 节点 上 ,有 运行 具体 任务 的 任务 槽 


e» 


E) 大 数据 分 析 与 计算 


(Task Slot) ,与 Hadoop MapReduce 具有 Map 和 Reduce 两 种 任务 不 同 , 在 Hama 中 只 有 一 
种 任务 (BSP Task) ,各 个 作业 的 任务 最 终 将 会 在 这 些 任 务 槽 中 来 运行 。 每 个 GroomServer 节 
点 在 运行 过 程 中 ,会 通过 Heartbeat 方式 周期 地 与 BSPMaster 节点 通信 ,向 BSPMaster 节 
点 汇报 其 目前 空闲 的 任务 槽 数目 、 任 务 运行 状态 以 及 接收 新 的 任务 指令 等 。 

需 注 意 的 是 ,GroomServer 节点 上 还 有 一 个 重要 组 件 BSPPeer。 每 个 GroomServer 分 
得 的 作业 Partition 都 进一步 分 解 成 基于 图 顶点 (Vertex) 的 计算 任务 (Task) ,每 一 个 计算 任 
务 都 有 一 个 对 应 的 BSPPeer 来 提供 顶点 间 的 通信 和 同步 功能 。 

3) ZooKeeper 

ZooKeeper(ZK) 用 来 管理 BSPPeer 的 同步 ,实现 超 步 的 Barrier Synchronisation 机 制 。 
在 ZK 实现 机 制 中 ,BSPPeer 主要 有 进入 Barrier 和 离开 Barrier 两 种 操作 ,所 有 进入 Barrier 
的 BSPPeer 会 在 ZK 提供 的 文件 结构 中 创建 一 个 临时 节点 (/bsp/JobID/SuperstepNO./ 
TaskID) ,最 后 一 个 进入 Barrier 的 BSPPeer 同时 还 会 创建 一 个 Ready Node(/bsp/JobID/ 
Superstep NO. /ready) ,然后 BSPPeer 进入 阻塞 状态 等 待 ,直到 ZK 上 所 有 的 Node 都 删除 
后 才 退 出 Barrier。 

下 面 以 Hama Core 版 本 为 例 说 明 Hama 的 计算 流程 。 

一 个 Hama 作业 (Job) 的 流程 首先 分 为 三 部 分 : JobClient 的 作业 提交 ,BSPMaster 的 
初始 化 与 作业 分 发 ,以 及 GroomServer 的 计算 任务 执行 ,如 图 13-29 所 示 。 
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图 13-29 Hama 计算 流程 


2. 作业 计算 流程 

图 13-30 详细 描述 了 Hama 作业 的 生命 周期 , 它 包 含 “ 作 业 的 提交 一 作业 初始 化 一 任 
务 分 派 一 任务 执行 状态 更 新 一 作业 完成 ?各 个 阶段 ,下 面 对 各 个 阶段 的 工作 内 容 进 行 
说 明 。 

1) 作业 的 提交 

在 将 编码 完成 的 bsp 函数 及 main 函数 打 成 JAR 包 后 ,可 以 使 用 以 下 命令 提交 作业 运 
行 ( 图 13-30 中 步骤 1: run job), 


% $ HAMA HOME/bin/hama jar < path to user jar» [mainclass] [parameters] 
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图 13-30 Hama 作业 提交 .分 发 ,执行 的 全 过 程 


在 提交 作业 后 ,调用 Job 对 象 中 的 waitForCompletion() 方 法 使 得 客户 端 程序 等 待 作业 
完成 ,在 这 一 过 程 中 ,客户 端 会 定期 地 将 作业 的 运行 状态 打印 到 控制 台 。 作 业 的 提交 过 程 全 
部 在 客户 端 完成 ,遵循 以 下 步骤 。 

CD 向 BSPMaster 申请 一 个 新 的 作业 ID( 通 过 RPC 调用 BSPMaster 上 的 getNewJobId OO) 
方法 )( 图 13-30 中 步骤 2: get new job ID); 

(2) 检查 作业 的 输出 设置 ,如 果 作业 的 输出 目录 未 设置 或 已 存在 ,作业 将 不 会 被 提交 ， 
作业 将 会 因为 异常 而 终止 ; 

G) 为 输入 文件 计算 分 片 (Partition) ,如 果 无 法 计算 输入 分 片 (如 输入 路 径 未 设置 ) , 作 
业 同 样 将 不 会 被 提交 ,作业 将 会 因为 异常 而 终止 。 计 算 好 的 作业 分 片 信息 会 与 其 他 作业 运 
行 相关 的 资源 存放 至 HDFS 中 。 

(4) 上 述 过 程 均 成 功 后 ,与 运行 作业 相关 的 文件 (包括 作业 的 JAR 文件 ,作业 的 配置 信 
息 及 输入 文件 的 分 片 信息 ) 将 被 复制 到 HDFS 上 BSPMaster 的 目录 下 ,并 以 作业 的 ID 作为 
文件 名 标识 。 作 业 JAR 的 备份 度 通常 会 很 高 (默认 为 10) ,以 使 得 JAR 可 运行 文件 能 够 在 集 
群 中 足够 分 散 ,方便 GroomServer 在 运行 作业 的 任务 时 可 以 快速 地 读 取 作 业 资 源 ( 图 13-30 中 

步骤 3: copy job resources) 。 

(5) 客户 端 将 作业 提交 给 BSPMaster( 图 13-30 中 步骤 4: submit job). 

2) 作业 初始 化 

当 BSPMaster 接收 到 提交 的 作业 后 ,会 根据 作业 中 的 设置 信息 为 作业 进行 初始 化 , 即 
为 作业 创建 一 个 代表 运行 中 作业 的 对 象 JobInProgress, 在 JobInProgress 中 封装 了 作业 的 
任务 信息 及 为 了 跟踪 任务 运行 状况 而 所 需 的 统计 信息 (图 13-30 中 步骤 5: initialize job) 。 
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JobInProgress 将 作为 作业 的 实际 代表 存在 于 BSPMaster 节点 上 ,并 会 被 作业 调度 器 “ 捕 
获 ? 放 入 对 应 的 作业 等 待 队列 中 。 

在 JobInProgress 初始 化 过 程 中 ,作业 中 的 各 个 任务 也 将 由 JobInProgress 来 负责 “ 预 
初始 化 "。 首 先 ,JobInProgress 会 读 取 该 作业 的 输入 分 片 信 息 , 随 后 JobInProgress 将 根据 
分 片 信息 中 分 片 的 个 数 (Task 数 ) 为 作业 初始 化 任务 ,并 将 任务 信息 记录 在 JobInProgress 
的 数据 结构 中 。 随 后 ,JobInProgress 会 通知 BSPMaster, 作 业已 初始 化 完毕 ,等 待 调度 
(图 13-30 中 步骤 6: retrieve input splits). 

3) 任务 调度 及 分 派 

GroomServer 在 运行 期 间 会 周期 性 地 向 BSPMaster 发 送 “ 心 跳 ” 信 息 。“ 心 跳 ” 信 息 中 
包含 GroomServer 的 状态 ,一 个 GroomServer 可 以 通过 “心跳 ”信息 告知 BSPMaster 其 当前 
正在 运行 的 任务 数 以 及 剩余 的 空闲 任务 槽 数目 。BSPMaster 会 将 各 个 GroomServer 汇报 
上 来 的 状态 信息 缓存 起 来 ,作业 调度 器 将 会 使 用 这 些 信息 来 为 作业 分 配 具体 的 执行 节点 
(图 13-30 中 步骤 7: heartbeat(returns task) ) 。 

在 进行 任务 分 配 之 前 ,BSPMaster 必须 按照 作业 调度 算法 选择 作业 。 目 前 Hama 只 有 
一 个 先 来 先 服务 (FCFS) 作 业 调 度 算法 ,一 旦 BSPMaster 选 定 了 作业 ,就 可 以 为 作业 分 派 具 
体 的 执行 节点 了 。 

4) 任务 运行 

经 过 任务 的 调度 及 分 派 之 后 ,GroomServer 已 经 被 分 派 到 了 新 的 任务 ,下 一 步 将 是 运行 该 
任务 。 首 先 ,GroomServer 把 HDFS 中 存储 的 作业 JAR 文件 复制 到 本 地 文件 系统 中 ,同时 , 它 
也 会 复制 运行 作业 所 需 的 其 他 文件 到 本 地 磁盘 (图 13-30 中 步骤 8: retrieve job resources) 。 然 
后 ,GroomServer 将 读 取 到 的 JAR 可 运行 文件 解压 ,并 创建 一 个 TaskRunner 实例 来 运行 该 
任务 。 

TaskRunner 将 会 在 一 个 新 创建 的 Java 虚拟 机 (JVMD) (图 13-30 中 步骤 9: launch) 中 独 
立 运行 所 分 派 到 的 任务 (图 13-30 中 步骤 10: run)。 由 于 新 建 的 JVM 独立 于 GroomServer 
的 JVM, 因 此 在 用 户 程序 中 的 任何 Bug 均 不 会 影响 到 GroomServer。 任 务 执行 子 线程 通过 
通信 协议 与 其 父 进程 进行 通信 ,将 任务 的 运行 情况 汇报 给 父 进程 。 

基于 Hama 并 行 计算 框架 的 应 用 程序 , 均 需 继承 自 抽象 基 类 BSP, 用 户 算法 的 实现 需 定 
义 在 bsp 方 法 中 ,该 方法 接收 一 个 BSPPeer 类 作为 参数 ,BSPPeer 负责 为 任务 提供 输入 以 及 
输出 功能 ,并 实现 各 个 任务 之 间 的 通信 以 及 同步 工作 。BSP 类 除 bsp() 方 法 外 ,还 有 两 个 方 
法 是 可 选 的 , 即 setup() 方 法 和 cleanup() 方 法 ,用 于 实现 程序 的 准备 (Setup) 以 及 清理 
(Cleanup) 工 作 。 

5) 作业 状态 更 新 

Hama 作业 通常 是 长 时 间 运 行 的 批 处 理 作 业 , 运 行 时 间 会 从 几 分 钟 到 几 个 小 时 不 等 。 
由 于 时 间 较 长 ,因此 用 户 能 够 及 时 地 从 作业 的 运行 情况 中 得 到 反馈 是 至 关 重 要 的 一 个 设计 
因素 。 在 Hama 的 设计 中 ,每 个 作业 和 任务 都 有 一 个 状态 (Status) 信 息 用 来 表示 当前 作业 
或 任务 的 状态 (State) (如 和 运行、 成 功 完 成 ,失败 等 ) ,任务 执行 进度 以 及 其 他 的 作业 统计 
信息 。 

图 13-31 展示 了 Hama 作业 状态 更 新 的 数据 流向 ,在 每 个 运行 的 任务 中 都 维护 着 当前 
任务 的 执行 进度 及 其 他 的 任务 统计 信息 。GroomServer 在 TaskRunner 执行 任务 的 同时 会 




















第 13 章 图 并 行 计算 框架 m 


周期 性 地 获取 这 些 信息 。 与 此 同时 ,GroomServer 在 收 到 这 些 信息 后 会 通过 “心跳 ”信息 将 
这 些 信 息 发 送 给 BSPMaster， 心 跳 ” 的 周期 和 集群 的 大 小 有 关 ( 默 认 值 为 5s) ,大 的 集群 周 
期 通常 需要 更 长 的 周期 来 完成 作业 运行 信息 的 收集 。BSPMaster 在 将 收 到 的 所 有 信息 汇 
总 后 ,生成 一 个 作业 的 全 局 状态 信息 ,客户 端 中 的 BSPJob 对 象 可 通过 getJobStatus 方法 来 
获知 它 所 负责 的 作业 的 统计 信息 。 客 户 端 在 等 待 作业 完成 时 打印 至 控制 台 的 信息 ,就 是 通 
过 这 一 途径 获取 的 。 











BSPMaster 























k 
客户 端 BSPMaster 节 点 








child) VM 
Child 
+ 
1 
BSPTask 



































GroomServer 节 点 
图 13-31 作业 状态 更 新 流程 


6) 作业 完成 

当 BSPMaster 收 到 作业 最 后 一 个 任务 完成 的 信号 后 (上 文 提 到 的 Cleanup 任务 ), 它 会 
把 作业 的 状态 信息 设置 为 "成功 ”。 然 后 ,在 客户 端 调 用 作业 信息 时 ,将 "成 功 ” 标 识 返回 给 客 
户 端 。 客 户 端 在 获知 作业 已 成 功 运行 完毕 后 ,将 在 控制 台 上 打印 作业 统计 信息 。 最 后 ， 
BSPMaster 将 会 清理 该 作业 占用 的 相关 资源 ,并 通知 GroomServer 做 清理 工作 。 

3. 作业 调度 策略 

Hama 计算 框架 是 通过 各 节点 间 的 消息 发 送 来 达成 数据 的 一 致 性 的 。 一 个 作业 在 运行 
过 程 中 发 送 消息 的 数量 不 仅 会 占用 GroomServer 本 地 内 存 空 间 , 过 大 的 消息 发 送 量 还 会 影 
响 集群 的 网 络 通信 性 能 。 因 此 ,Hama 根据 作业 的 消息 发 送 量 把 作业 分 为 如 下 两 类 。 

1) 消息 密集 型 作业 

消息 密集 型 作业 是 指 作业 在 运行 过 程 中 产生 的 消息 量 大 于 作业 本 身 输入 的 数据 ,这 类 
作业 不 仅 使 得 内 存 占用 率 增高 ,而 且 会 大 量 耗费 集群 网 络 带宽 ,很 容易 产生 GroomServer 
节点 过 载 。 典 型 的 消息 密集 型 作业 包括 网 页 排名 (PageRank) 及 单 源 最 短路 径 (SSSP) 等 
计算 。 

2) CPU 密集 型 作业 

CPU 密集 型 作业 也 可 称 为 非 消息 密集 型 作业 ,这 类 作业 发 送 的 消息 量 一 般 小 于 其 输入 
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的 数据 量 ,在 其 运行 过 程 中 主要 是 在 本 地 节点 上 进行 运算 ,只 通过 少量 的 网 络 消息 来 达成 各 
个 计算 节点 所 需 的 消息 交换 ,甚至 不 需要 发 送 网 络 消息 。 典 型 的 CPU 密集 型 作业 如 机 器 
学 习 中 K-means 聚 类 算法 等 。 

作业 (Job) 管 理 是 Hama 的 核心 功能 ,主要 包含 作业 的 提交 、 调 度 及 任务 (Task) 的 分 发 
和 管理 。 作 业 调 度 主要 由 BSPMaster 来 完成 ,BSPMaster 负责 维护 每 个 Job 的 相关 信息 ， 
将 一 个 Job 的 执行 分 解 为 多 个 Task, 分 配给 各 GroomServer。GroomServer 负责 执行 Task 
任务 ,并 将 执行 状态 等 参数 返回 给 BSPMaster。Task 分 配 调度 流程 如 图 13-32 Bros. 
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BSPMaster 中 有 一 个 FIFO 的 Job 队列 ,所 有 已 提交 过 的 Tob 的 控制 .状态 等 相关 信息 
存储 在 这 个 队列 中 。 

由 于 计算 机 硬件 资源 有 限 ,所 以 每 个 GroomServer 所 能 执行 的 Task 数目 有 一 个 上 限 
(此 值 可 设置 ) ,因此 需要 合理 地 调度 各 个 Job 的 Task, 以 使 其 能 够 在 各 GroomServer 上 较 
均衡 地 运行 。Task 的 调度 也 是 由 BSPMaster 完成 的 ,目前 在 Hama 中 ,只 设置 了 一 个 简单 
的 FCFS 调度 器 来 完成 此 工作 ,其 工作 原理 如 下 。FCFS 作业 调度 器 使 用 一 个 FIFO 队列 来 
管理 用 户 提交 的 作业 ,在 调度 作业 时 ,会 从 等 待 队列 中 选取 队 首 作业 作为 下 一 个 执行 的 任 
务 ,并 为 该 作业 分 配 具体 执行 节点 。FCFS 作业 调度 器 的 工作 流程 如 图 13-33 所 示 ( 图 中 各 
方法 均 省 略 了 参数 名 ) ,包含 如 下 调度 步骤 。 

步骤 1: 作业 加 入 FIFO 队列 。 作 业 首 先 由 客户 端 (BSPJobClient) 提 交 至 Master 节点 ， 
BSPMaster 会 负责 初始 化 该 作业 ,生成 一 个 代表 其 运行 状态 的 对 象 JobInProgress, 然 后 被 
JobListener 中 的 jobAdded 方法 添加 至 FIFO 等 待 队 列 中 。 
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2539 2: 下 一 个 执行 作业 选择 。 作 业 的 选择 由 JobProcessor 完成 , 当 FIFO 队列 有 作业 
等 待 时 ,JobProcessor 会 从 等 待 队列 的 队 首 摘 取 一 个 作业 放 入 运行 队列 中 ,并 调用 schedule 
方法 进行 调度 工作 。 

步骤 3. 任务 分 配 至 执行 节点 。 在 任务 分 配 过 程 中 , TaskWork 会 利用 注册 在 
JobInProgress 对 象 中 的 任务 分 配 策略 来 为 任务 分 配 具体 执行 节点 ,然后 TaskWork 发 出 任 
务 执行 指令 至 具体 执行 的 GroomServer, 至 此 作业 调度 流程 结束 。 

从 以 上 分 析 可 看 出 ,FCFS 作业 调度 器 是 按照 作业 到 来 先后 顺序 进行 调度 的 , 先 到 的 作 
业 优 先 被 调度 ,只 有 当 集 群 剩余 资源 大 于 队 首 作业 所 需 资 源 时 ,等 待 在 FIFO 队列 中 的 队 首 
作业 才 有 机 会 被 调度 ,否则 就 只 能 等 待 。 这 一 算法 导致 以 下 两 个 问题 。 

CD 若 集群 剩余 资源 无 法 满足 FIFO 队列 中 队 首 作业 所 需 资源 ,即使 能 够 满足 排 在 队 
首 作 业 之 后 其 他 作业 的 需求 。 这 些 作 业 也 不 会 得 到 调度 ,这 造成 一 定 程度 的 资源 使 用 低 

(2) 仅 使 用 到 达 队 列 时 间 这 一 参数 来 调度 作业 任务 ,没有 考虑 到 不 同类 型 作业 对 完成 
时 间 期 限 要 求 的 差异 ,造成 作业 执行 整体 时 效 性 差 ,不 能 满足 时 效 性 要 求 高 的 作业 类 型 。 

针对 FCFS 算法 的 上 述 缺 陷 有 研究 者 提出 了 多 层级 作业 调度 算法 "中, 力图 在 资源 使 用 
效率 和 整体 时 效 性 方面 对 Hama 作业 调度 做 出 改进 。 

4. 多 层级 作业 调度 

Hama 执行 节点 GroomServer 需 周期 性 地 向 主 节点 BSPMaster 报告 其 负载 状态 (包括 
其 空闲 任务 槽 数目 ) ,作业 调度 器 从 中 挑 出 合适 的 GroomServer 执行 作业 任务 。 因 此 Hama 
的 调度 侧重 于 如 何 为 一 个 作业 选择 合适 的 执行 节点 。 应 当 注 意 的 是 ,Hama 在 作业 选择 时 
可 能 发 生 调度 失败 的 情况 。 例 如 ,在 选择 了 一 个 作业 后 ,该 作业 的 任务 数 如 果 超 过 了 集群 目 
前 可 使 用 任务 槽 的 数目 ,将 使 得 该 作业 无 法 进行 任务 分 配 ,造成 作业 失败 。 在 Hama 的 
FCFS 调度 算法 下 , 当 这 一 情况 发 生 时 ,即使 队列 之 后 有 满足 Hama 集群 当前 资源 使 用 状况 
的 作业 ,该 作业 也 无 法 被 调度 .调度 以 失败 告终 。 另 外 ,在 Hama 作业 运行 过 程 中 , 某 个 任 
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务 的 失败 也 会 导致 整个 作业 的 失败 。 因 此 ,Hama 在 作业 调度 时 尽 可 能 遵守 的 一 个 准则 是 : 
应 优先 选择 那些 任务 数 小 于 集群 当前 所 能 提供 的 任务 槽 数目 的 作业 。 在 任务 分 配方 面 , 为 
了 提高 作业 执行 成 功 的 概率 ,应 优先 考虑 负载 较 小 的 GroomServer。 总 之 ,在 作业 调度 的 过 
程 中 ,作业 任务 运行 效率 和 资源 使 用 率 是 调度 设计 考虑 的 首要 因素 。 

多 层级 作业 调度 算法 设计 包括 资源 层级 模型 .作业 选择 策略 ,任务 分 配 策略 以 及 调度 器 
配置 几 个 方面 ,资源 层级 模型 是 将 集群 计算 资源 抽象 成 任务 槽 (Task Slot) ,并 将 这 些 任 务 
槽 按照 不 同 的 层级 进行 管理 和 分 配 ; 作业 选择 策略 则 是 将 各 个 层级 分 配 的 资源 映射 到 各 个 
作业 任务 队列 ; 任务 分 配 策略 则 是 选择 合适 的 计算 节点 执行 调度 的 作业 任务 ,调度 器 配置 
则 是 通过 配置 文件 实现 调度 器 参数 的 动态 调整 。 

5. 资源 层级 模型 

在 Hama 中 ,基本 任务 单元 就 是 GroomServer 节点 中 的 任务 槽 (Task Slot) ,多 层级 作 
业 调度 算法 中 资源 管理 的 目的 就 是 如 何 合理 有 效 地 将 这 些 * 任 务 槽 映射 到 不 同 层次 的 资源 
容器 ,使 得 集群 的 各 个 作业 能 够 共享 这 些 资源 。 具 体 做 法 是 将 集群 资源 划分 为 以 下 三 个 层 
级 (如 图 13-34 所 示 )。 
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第 一 层级 为 集群 物理 资源 层 。 在 这 一 层级 ,按照 作业 类 型 的 不 同 , 集 群 物理 资源 被 划分 
为 多 个 作业 类 型 资源 池 。Hama 的 作业 类 型 是 有 限 的 ,因此 作业 类 型 资源 池 的 数目 也 是 有 
限 的 ,这 样 可 以 避免 集群 资源 碎片 化 ,造成 某 些 需 要 大 数额 资源 的 作业 无 法 运行 。 

第 二 层级 为 作业 类 型 资源 池 。 在 这 一 层级 内 ,每 个 作业 资源 池 根 据 作 业 类 型 设置 相应 
的 名 称 并 分 配 一 定 的 物理 资源 ,配额 的 大 小 可 针对 不 同 作业 类 型 有 所 侧重 。 在 每 一 个 资源 
池内 部 ,可 进一步 为 每 个 用 户 构 建 一 个 任务 等 待 队 列 , 资 源 池 中 所 有 的 等 待 队 列 共享 资源 池 
的 资源 。 为 了 避免 集群 中 同时 运行 的 作业 过 多 ,导致 中 间 过 程 耗 尽 集群 存储 空间 ,每 个 资源 
池 可 设置 最 大 可 同时 运行 的 作业 数目 。 

第 三 层级 为 用 户 作业 等 待 队列 ,用户 提交 的 作业 会 最 终 被 放 入 这 些 队列 中 ,用 户 等 待 队 
列 的 名 称 可 以 根据 用 户 名 来 设置 。 同 时 ,为 了 避免 单个 用 户 用 尽 资源 池 中 的 资源 ,可 以 限制 
每 个 用 户 可 以 同时 运行 作业 的 数量 。 同 一 用 户 可 以 在 不 同 的 资源 池 中 创建 相同 名 称 的 用 户 
作业 等 待 队 列 。 因 此 , 需 通 过 资源 池 名 称 和 用 户 作业 等 待 队 列 名 称 的 组 合 来 唯一 地 标识 一 
个 作业 等 待 队 列 。 

集群 资源 层级 的 划分 可 通过 系统 配置 文件 来 控制 ,比如 ,按照 前 述 对 作业 的 消息 密集 型 
和 CPU 密集 型 两 类 划分 ,一 种 可 能 的 资源 层级 划分 方式 如 图 13-35 所 示 。 
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图 13-35 资源 层级 划分 方式 


6. 作业 调度 算法 

从 前 述 的 Hama 作业 调度 流程 可 看 出 ,多 层级 作业 调度 具体 包含 如 下 内 容 : 用 户 作业 
加 入 集群 时 如 何 选择 资源 池 ,在 作业 调度 时 如 何 选择 任务 队列 ,以 及 任务 队列 如 何 选择 下 一 
个 执行 的 任务 。 为 此 需 考 虑 如 下 对 应 的 策略 。 

1) 资源 池 选 择 策略 

资源 池 选 择 策略 对 应 于 资源 模型 的 第 一 层 , 即 如 何 根据 作业 类 型 来 选择 相应 的 资源 池 。 
目前 主要 使 用 的 策略 如 下 。 

(1) 轮 询 策略 

这 是 最 简单 的 一 种 方式 , 即 当 一 个 新 的 作业 加 入 集群 时 ,作业 调度 器 会 在 各 个 资源 池 之 
间 循 环 轮流 选择 资源 池 来 接纳 新 作业 。 

(2) 速率 策略 

速率 策略 会 根据 作业 的 优先 级 别 来 选择 加 入 的 资源 池 , 使 得 这 一 类 作业 资源 池 的 调度 
速度 会 快 于 其 他 资源 池 。 

(3) 公平 策略 

公平 共享 策略 在 选择 资源 池 时 ,优先 选择 已 占用 资源 水 平 低 于 各 个 资源 池 平 均 占 用 水 
平 的 资源 池 ,以 尽量 保证 各 个 资源 池 能 够 均等 地 获取 集群 中 的 资源 。 计 算 资源 池 平 均 占 用 
资源 水 平 的 公式 如 下 : 

meanresourees = Occupieduu / 715 

A: 

meanrsoures : 表示 资源 池 平 均 占用 资源 水 平 。 

occupieduu : 表示 各 个 资源 池 已 占用 资源 总 数目 。 

npo: 表示 集群 中 资源 池 的 个 数 。 

(4) 资源 利用 率 策略 

在 选择 资源 池 时 ,首先 将 各 个 资源 池 按 照 资源 使 用 率 由 低 到 高 排序 ,优先 选择 资源 使 用 
率 较 低 的 资源 池 。 资 源 池 的 资源 使 用 率 计算 公式 如 下 : 

ratio. us = occupied; / quotas 

x. 

ratiouesures : 表示 资源 池 资 源 利用 率 水 平 。 
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occupied, : 表示 资源 池 已 占用 资源 数 。 

quotapool : 表示 资源 池 资源 的 配额 数量 。 

2) 队列 选择 策略 

等 待 队列 选择 策略 用 于 在 众多 任务 等 待 队列 中 选择 一 个 候选 队列 ,然后 对 此 队列 再 使 
用 后 面 的 作业 选择 策略 选择 一 个 作业 进行 调度 。 等 待 队 列 选择 策略 对 应 于 资源 模型 的 第 二 
层 , 可 使 用 的 策略 包括 轮 询 策略 .速率 策略 公平 共享 策略 等 。 

3) 作业 选择 策略 

作业 选择 策略 的 目的 是 在 用 户 等 待 队 列 内 选择 一 个 作业 进行 调度 和 和 运行 ,对 应 于 第 三 
层级 ,目前 可 使 用 的 策略 如 下 。 

(1) FIFO 策略 

这 一 策略 按照 作业 提交 时 间 的 先后 顺序 来 挑选 作业 。 

(2) 大 作业 优先 策略 

大 作业 优先 策略 优先 选择 所 需 任 务 数目 最 多 的 作业 。 

(3) 小 作业 优先 策略 

与 大 作业 优先 策略 相反 ,这 一 策略 优先 选择 所 需 任务 数目 最 少 的 作业 。 

上 述 三 种 作业 选择 策略 均 可 以 支持 优先 级 选择 , 即 按照 作业 的 优先 级 别 高 低 来 选择 调 
度 的 作业 。 若 同一 优先 级 别 中 有 多 个 作业 , 则 再 按照 前 述 的 FIFO、 大 作业 优先 或 小 作业 优 
先 的 策略 选择 调度 作业 。 在 不 同 的 资源 层级 设置 不 同 的 选择 策略 ,可 以 兼顾 不 同 的 作业 类 
型 和 不 同 的 用 户 对 资源 的 不 同 使 用 方式 。 但 是 ,各 个 层级 的 选择 策略 需 合 理 搭配 ,以 避免 作 
业 等 待 太 长 时 间 发 生 “ 饥 饿 ”, 其 至 一 直 得 不 到 调度 的 情况 发 生 。 

7. 任务 分 配 策略 

在 作业 选择 策略 确定 了 下 一 个 需 执行 的 作业 后 ,任务 分 配 策略 即 从 集群 当前 可 用 的 
GroomServer 集合 中 挑选 出 一 组 节点 去 执行 作业 。 目 前 ,Hama 作业 调度 器 主要 基于 数据 
本 地 化 来 进行 任务 分 配 ,这 一 策略 可 大 幅度 降低 节点 间 数 据 传送 的 开销 。 但 从 实际 运行 情 
况 看 这 一 策略 存在 如 下 不 足 。 

(1) Hama 的 作业 任务 是 一 次 性 分 配 , 因 此 在 集群 启动 初期 数据 本 地 化 率 可 达到 较 高 
水 平 ,但 随 着 更 多 的 作业 共享 集群 ,要 达到 高 本 地 化 率 将 变 得 很 困难 ; 

(2) 为 了 提高 数据 本 地 化 率 , 可 能 会 使 得 一 些 任务 被 分 配 到 负载 较 高 的 节点 上 ,这 容易 
导致 任务 运行 的 失败 。 

因此 ,在 我 们 提出 的 多 层级 作业 调度 算法 中 ,主要 考虑 GroomServer 负载 水 平 , 即 采用 
了 负载 均衡 策略 。 节 点 的 负载 水 平 计算 公式 如 下 : 

ratiOLosdBalmce — Mrunning Tasks / TtoulSlots 
AH: 

ratiOLsdmaane : 表示 某 个 GroomServer 的 负载 水 平 。 

TronningTasks : 表示 在 一 个 GroomServer 中 正在 运行 的 任务 的 个 数 。 

nwoulsios : 表示 在 一 个 GroomServer 中 能 够 运行 任务 的 最 大 个 数 , 即 任务 槽 数目 。 

多 层级 作业 调度 器 在 选择 GroomServer 时 ,首先 按照 节点 负载 水 平 对 集群 可 使 用 资源 
进行 排序 ,然后 优先 选择 负载 水 平 低 的 节点 。 这 一 策略 虽然 没有 将 数据 本 地 化 作为 首要 考 
虑 因素 ,但 是 在 多 用 户 共享 集群 的 情况 下 ,负载 均衡 带 来 的 效益 能 够 显著 提高 作业 执行 效率 
和 集群 资源 使 用 率 ,这 在 后 面 的 算法 实验 中 得 到 了 验证 。 


8. 算法 流程 
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下 面 是 多 层级 作业 调度 算法 用 伪 码 表示 的 流程 。 





// 集 群 启动 并 初始 化 
hamaClusterStart() ; 
initResources() ; 


// 作 业 加 入 任务 队列 
job. submitToMaster() ; 
job. add ToQueue() ; 


// 调 度 器 进行 作业 选择 
job = selectJobToSchedule() ; 
job. assginTasks() ; 


// 执 行 任务 分 配 策略 


sendDrictivesToGroomServer() ; 


在 集群 初始 化 完成 后 ,调度 器 即 开始 接受 用 户 作 业 提 交 并 基于 作业 类 型 放 入 对 应 的 资 
源 池 及 任务 等 待 队列 中 ,然后 调度 器 可 根据 层级 选择 策略 选择 资源 池 、 等 待 队列 和 执行 作 


业 。 作 业 选 择 流程 如 图 13-36 所 示 。 





消息 密集 型 





根据 消息 密集 池 中 的 等 待 队列 选择 策略 选择 等 待 队列 
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合 限制 条 件 
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根据 资源 池 选 择 策略 选择 资源 池 









对 作业 执行 限制 条 件 测试 


测试 通过 





作业 选择 





资源 密集 型 
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作业 均 不 符合 
限制 条 件 
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作业 1 不 满足 
测试 条 件 


图 13-36 ”多 层级 算法 作业 选择 流程 
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在 上 述 作 业 选 择 流程 中 ,首先 调度 器 会 判断 集群 当前 是 否 有 可 用 的 资源 。 若 集群 中 无 
可 用 资源 , 则 停止 调度 ,等 待 正在 运行 的 作业 运行 完毕 释放 资源 ; 若 集群 有 可 用 资源 ,调度 
器 会 根据 资源 池 选 择 策略 选择 一 个 资源 池 , 再 根据 队列 选择 策略 选择 一 个 用 户 等 待 队 列 , 最 
后 按照 作业 选择 策略 选择 一 个 候选 作业 。 

在 候选 作业 选 定 后 ,还 需 对 其 执行 限制 条 件 测 试 。 若 测试 通过 , 则 进行 该 作业 的 下 一 步 
操作 ; 车 测试 失败 ,其 处 理 方式 分 为 以 下 几 种 情况 。 

(1) 在 用 户 等 待 队 列 中 测试 失败 时 ,继续 调用 “作业 选择 策略 ”以 选择 下 一 个 候选 作业 
进行 测试 ; 

D 当 用 户 等 待 队列 中 的 所 有 作业 均 测 试 失败 时 ,流程 返回 至 资源 池 层 级 根据 “等 待 队 
列 选择 策略 ?选择 下 一 队列 ; 

(3) 当 资 源 池 中 所 有 用 户 等 待 队列 中 的 作业 均 测试 失败 时 ,返回 至 第 一 层级 根据 “资源 
池 选 择 策略 ”选择 下 一 资源 池 ; 

(4) 当 所 有 资源 池 中 的 作业 均 测 试 失败 时 ,表明 集群 当前 所 剩 资 源 无 法 满足 任 一 等 待 
运行 的 作业 ,作业 调度 器 暂停 执行 等 待 集群 中 正在 运行 的 作业 运行 结束 释放 资源 。 

在 选 定 了 作业 之 后 ,下 一 步 就 是 根据 负载 均衡 任务 分 配 策略 为 该 作业 挑选 合适 的 
GroomServer 组 合 , 并 将 作业 中 的 任务 分 配 到 具体 的 GroomServer 中 去 执行 。 负 载 均衡 任 
务 分 配 策略 的 流程 如 下 面 的 伪 码 所 示 。 














// 获 取 集 群 各 GroomServer 当前 状态 
GroomServerStatus[] 
status = getClusterStatus() ; 


// 按 负载 水 平 对 GroomServer 排序 


sortGroomServerByLoadBalanceRatio( status) ; 


// 为 作业 中 各 个 任务 分 配 具体 的 GroomServer 

while ((t = job.obtainTask(status)) != null) { 
taskSet. add(t) ; 

) 


// 生 成 并 下 发 给 GroonServer 的 指令 
actions = assemblyLaunchTaskActions(); 
sendDirectivesToGrooms(actions); 





对 多 层级 作业 调度 算法 与 Hama 的 FCFS 算法 进行 的 性 能 对 比 仿真 实验 证 明 己 ] ,多 层 
级 作业 调度 算法 基于 节点 负载 均衡 带 来 的 降低 同步 延迟 提高 运行 效率 的 优势 大 于 FCFS 算 
法 本 地 化 任务 调度 策略 带 来 的 益处 。 这 是 因为 基于 数据 本 地 化 策略 在 为 作业 选择 执行 节点 
时 ,会 优先 考虑 符合 数据 本 地 化 的 节点 ,这 可 能 导致 多 个 任务 聚集 在 一 个 节点 上 。 而 当 各 个 
节点 均 不 满足 数据 本 地 化 要 求 时 ,该 策略 会 依次 选择 任务 槽 数 未 满 的 节点 ,这 也 会 加 重 部 分 
节点 的 负载 ,造成 节点 间 负 载 不 均衡 。Hama 计算 流程 是 由 一 系列 BSP 超 步 组 成 的 ,各 个 
超 步 之 间 通 过 屏障 同步 实现 协同 ,集群 节点 的 负载 不 均衡 将 导致 运行 较 快 的 任务 需 在 同步 
时 需 等 待 运行 较 慢 的 任务 ,这 势必 造成 计算 延迟 和 性 能 的 降低 。 
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13.5 应 用 编程 接口 


Hama 0. 6. 0 以 上 的 版 本 需要 安装 JRE 1. 6 或 更 高 版 本 ,并 且 集群 各 节点 安装 了 SSH 
及 以 下 环境 。 

(1) hadoop-0. 20. x for HDFS( 分 布 模式 ) 

(2) Sun Java JDK 1. 6. x 或 更 高 版 本 

{$ HAMA_HOME/bin}) 文 件 夹 内 包含 启动 Hama 进程 的 脚步 文件 ,例如 ,start-bspd. 
sh 用 来 启动 BSPMaster、GroomServers 和 ZooKeeper 三 个 进程 。 启 动 命令 为 : 


$ bin/start- bspd. sh 


基于 BSP 并 行 模型 的 Hama 应 用 程序 , 均 需 继承 抽象 类 BSP( 源 代码 如 下 所 示 ), 用 户 
设计 的 算法 需 定义 在 BSP 类 的 bsp() 方 法 中 。 


public abstract class BSP < Kl, V1, K2, V2, M extends Writable > implements BSPInterface < K1, 
Vi, K2, V2, M» ( 

@Override 

public abstract void bsp (BSPPeer < Kl, V1, K2, V2, M > peer) throws IOException, 
SyncException, InterruptedException; 

(3 Override 

public void setup(BSPPeer « Kl, V1, K2, V2, M» peer) throws IOException, SyncException, 
InterruptedException ( 

) 

(à Override 

public void cleanup(BSPPeer < K1, V1, K2, V2, M> peer) throws IOException { 

) 
) 


Hama 作业 的 创建 及 配置 ,可 以 通过 构建 一 个 BSPJob 类 的 实体 来 实现 ,代码 如 下 。 


HamaConfiguration conf = new HamaConfiguration(); 
BSPJob job = new BSPJob(conf, MyBSP.class); 

job. setJobName("My BSP program"); 

job. setBspClass(MyBSP. class); 

job. setInputFormat(NullInputFormat. class); 

job. setOutputKeyClass(Text.class); 


job. waitForCompletion(true); 


Hama 作业 创建 后 ,可 以 读 入 输入 数据 文件 ,也 可 以 通过 BSP 类 提供 的 方法 输出 最 后 
的 计算 结果 ,代码 如 下 。 


// 设 置 输入 文件 路 径 

job. setInputPath(new Path("/tmp/sequence. dat") ; 

// 设 置 输入 格式 

job. setInputFormat(org. apache. hama. bsp. SequenceFileInputFormat. class); 
// 可 以 读 入 序列 文件 

SequenceFileInputFormat. addInputPath( job, new Path("/tmp/sequence. dat")); 


E 大 数据 分 析 与 计算 


// 从 多 个 数据 文件 读 人 
SequenceFileInputFormat. addInputPaths( job, "/tmp/seql. dat, /tmp/seq2. dat, /tmp/seq3. dat"); 


// 设 置 输出 格式 

job. setOutputKeyClass(Text.class); 

job. setOutputValueClass(IntWritable. class); 

job. setOutputFormat(TextOutputFormat. class); 
FileOutputFormat. setOutputPath( job, new Path("/tmp/result")); 


下 面 的 代码 段 就 是 重 写 (Override)bsp() 方 法 来 读 人 输入 文件 的 数据 。 


@Override 
public final void bsp (BSPPeer < LongWritable, Text, Text, LongWritable, Text > peer) throws 
IOException, InterruptedException, SyncException ( 


) 


//this method reads the next key value record from file 
KeyValuePair < LongWritable, Text» pair = peer.readNext(); 


//the following lines do the same: 
LongWritable key = new LongWritable(); 
Text value = new Text(); 

peer. readNext(key, value); 


//write 
peer. write(value, key); 


需 注 意 到 bsp() 方 法 的 参数 中 有 一 个 BSPPeer 类 的 参数 peer, 它 包含 通信 接口 、 各 种 计 
数 器 ,以 及 1/O 界面 ,提供 了 各 个 顶点 (Vertex) 的 计算 任务 之 间 进 行 通信 和 同步 的 渠道 。 
BSPPeer 提供 的 方法 接口 如 表 13-1 所 示 。 


表 13-1 BSPPeer 方法 接口 




















方法 名 定 SA 
send(String peerName, BSPMessage msg) 发 送 消息 给 另 一 顶点 
getCurrentMessage() 读 取 一 个 收 到 的 消息 
getNumCurrent Messages() 读 取 收 到 的 消息 数目 
syncO 障碍 同步 函数 
getPeerName() | 返回 一 个 顶点 的 主机 名 
getAllPeerNames() 返回 所 有 顶点 的 主机 名 
getSuperstepCount() 返回 超 步 的 数目 








下 面 是 一 段 调用 BSPPeer 的 send() 方 法 向 所 有 的 顶点 发 送 一 条 “Hello from xxx” 消 息 


的 代码 。 


@Override 
public void bsp(BSPPeer < NullWritable, NullWritable, Text, DoubleWritable, Text > peer) throws 
IOException, SyncException, InterruptedException { 


for (String peerName : peer. getAllPeerNames()) { 


peer. send ( peerName, new Text ( " Hello from + peer. getPeerName(), System. 


currentTimeMillis())); 
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} 


peer. sync(); 
} 


Hama 也 提供 聚合 器 (Combiner) 功 能 来 减少 网 络 流量 ,提高 传送 效率 。 比 如 下 面 的 代 
码 向 一 个 顶点 masterTask 发 送 了 1000 次 消息 ; 而 收 到 这 1000 条 消息 的 masterTask 则 需 
要 做 1000 次 迭代 处 理 。 


public void bsp(BSPPeer «NullWritable, NullWritable, NullWritable, NullWritable> peer) throws 
IOException, SyncException, InterruptedException ( 
// I] masterTask 发 送 1000 次 消息 
for (inti = 0; i« 1000; i++) { 
peer. send(masterTask, new IntegerMessage(peer.getPeerName(), i)); 
Jj 
peer. sync() ; 


// 收 到 方 则 需 1000 次 迭代 循环 处 理 
if (peer. getPeerName().equals(masterTask)) ( 
IntegerMessage received; 
while ((received = (IntegerMessage) peer.getCurrentMessage()) != null) ( 
sum += received. getData(); 


} 


} 


但 我 们 可 以 写 一 个 Combiner 将 上 述 1000 条 消息 打包 成 一 条 消息 进行 发 送 和 处 理 ,这 将 
大 大 提高 传送 效率 。 下 面 的 代码 实现 了 一 个 SumCombiner 类 的 combine O PR , © f — 4B iHd 
息 (BSPMessage 类 型 ) 包 含 的 值 求 和 打包 到 一 条 消息 中 ,然后 封装 在 BSPMessageBundle 内 。 
下 次 无 须 再 发 送 1000 次 ,而 是 发 送 一 次 BSPMessageBundle 即 可 。 


public static class SumCombiner extends Combiner { 
@Override 
public BSPMessageBundle combine(Iterable < BSPMessage > messages) { 
BSPMessageBundle bundle - new BSPMessageBundle(); 
int sum = 0; 


Iterator < BSPMessage^ it = messages. iterator(); 
while (it.hasNext()) ( 

sum += ((IntegerMessage) it.next()).getData(); 
) 
bundle. addMessage(new IntegerMessage("Sun", sum)); 


return bundle; 
) 
Hama 作业 (Job) 在 创建 和 配置 后 ,通过 BSPJobClient 提交 的 方法 如 下 。 


jc = new BSPJobClient(new HamaConfiguration()); 
HamaConfiguration tConf - new HamaConfiguration(new Path(submitJobFile)); 
RunningJob job = jc.submitJob(new BSPJob(tConf)); 
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超 步 (SuperStep) 与 同步 (Synchronization) 的 实现 : Hama 超 步 的 同步 机 制 如 图 13-37 
所 示 。 它 利用 ZooKeeper 来 实现 同步 的 两 个 编程 接口 : SyncClient 和 SyncServer。 用 到 的 
5 个 接口 实现 类 如 下 。 


(1) ZookeeperSyncClientImpl; 


(2) ZookeeperSyncServerImpl; 


(3) SyncServerRunner; 
(4) SyncException; 
(5) SyncServiceFactory。 


SuperStep Start 


SuperStep End 





| Enter Barrier 


l Leave Barrier 





Interface SyncClient { 
Init(); 
EnterBarrier(); 
LeaveBarrier(); 
// 通 常 表示 超 步 的 结束 
Register(); 
DeregisterfromBarrier(); 
Stopserver(); 


} 


Interface SyncServer { 
Init(); 
Start(); 
StopServer(); 

) 


Class Superstep ( 
Setup(); 
Conpute() ; 
HaltCompute(); 


图 13-37 Hama 同步 示意 图 


// 初 始 化 
// 在 每 一 个 超 步 中 ,发 送 消息 之 前 ,进入 Barrier 
// 在 所 有 的 communication 结束 之 后 ,离开 Barrier 


// 用 address 和 port 将 任务 向 sync daemon 注册 
// 注 销 
// 停 止 Sync daemon 


// 初 始 化 
// 开 始 Server 
// 停 止 Server 


// 在 Compute() 之 前 调用 ,是 针对 于 某 一 特定 超 步 的 设置 
// 主 要 的 计算 阶段 
// 停 止 计算 





























第 13 章 图 并 行 计算 框架 EE 
Cleanup(); //1£ Compute() 函 数 之 后 调用 ,是 对 于 某 一 特定 超 步 的 
// 计 算 后 的 相关 处 理工 作 
) 
Class SuperstepBSP { 
Setup(); // 调 用 Superstep. Setup() 
Bsp(); // 调 用 Superstep. Compute( ) ffl Superstep. Haltcompute() 
Cleanup(); // 调 用 Superstep. Cleanup() 
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习题 


1. 为 什么 在 MapReduce 计算 模型 之 外 还 需要 图 并 行 计算 模型 ? 图 并 行 计 算 框架 与 
MapReduce 批 处 理 模 型 的 主要 差别 在 哪里 ? 

2. 图 并 行 计 算 系 统 目 前 有 三 种 技术 方案 : 基于 BSP 模型 的 Pregel 和 Hama, 基 于 节点 
计算 的 GraphLab, 以 及 图 数据 库 Neo4j 和 InfiniteGraph。 试 论述 三 种 技术 方案 的 差异 。 

3. 为 什么 Pregel 的 节点 间 通 信 必 须 被 局 限 在 超 步 之 间 的 障碍 期 进行 ? 不 这 样 做 会 导 
致 什么 后 果 ? 

4. 在 BSP 模型 中 ,消息 发 送 和 接收 的 Combiner 机 制 可 在 发 送 节 点 实现 ,也 可 以 在 接 
收 节点 实现 。 什 么 时 候选 择 在 发 送 节点 实现 Combiner? 什么 时 候选 择 在 接收 节点 实现 
Combiner? 各 自 的 目的 是 什么 ? 

5. 节点 通信 中 Combiner 的 使 用 是 为 了 降低 节点 间 网 络 通信 开销 ,更 有 效 地 使 用 网 络 
资源 。 但 是 不 是 所 有 节点 计算 都 适用 Combiner? 使 用 Combiner 时 需 遵 循 的 一 条 准则 是 
什么 ? 

6. 参照 图 13-20 的 最 大 值 算 例 , 若 将 问题 改 为 需要 将 最 小 值 传播 到 每 个 项 点 , 列 出 传 
播 过 程 的 各 个 超 步 步 又 。 








以 MapReduce 为 代表 的 批 处 理 模 式 被 证 明 是 一 种 计算 数据 量 大 、 性 价 比 高 .技术 成 熟 
的 解决 方案 ,但 其 计算 延迟 长 (通常 在 数 小 时 到 数 天 的 量 级 ) ,不 利于 对 时 效 要 求 高 的 在 线 实 
时 分 析 类 应 用 ; 内 存 计算 模式 处 理 速度 快 (通常 在 毫秒 到 秒 量 级 ), 有 利于 实时 智能 分 析 , 但 
系统 硬件 成 本 高 .与 周边 系统 同步 兼容 性 差 。 如 果 把 MapReduce 批 处 理 模式 和 大 内 存 计 算 
模式 看 成 同一 条 轴 上 的 两 个 极端 ,交互 式 计 算 模式 则 可 看 作 人 们 正在 探索 的 这 两 个 极端 之 
间 的 一 个 折 中 或 优化 解决 方案 (对 内 存 计算 而 言 是 折 中 ,对 MapReduce 而 言 是 优化 ) 。 

交互 式 数据 分 析 起 源 于 2010 年 Google 发 表 的 一 篇 论文 Dremel; Interactive Analysis 
of Web Scale Datasets ™ ,但 实际 上 Google 公司 在 2008 年 即 已 运行 Dremel 进行 大 规模 数 
据 处 理 。Dremel 是 一 个 可 扩展 交互 式 即 时 查询 系统 ,可 运行 在 上 千 个 节点 的 集群 上 ,可 以 
在 秒 级 完成 上 万 亿 行 (PB 量 级 ) 数 据 的 查询 。 重 要 的 是 ,Dremel 并 非 RAMCloud 或 Hana 
那样 的 基于 昂贵 硬件 平台 的 技术 方案 ,而 是 运行 在 通用 商业 机 器 集群 上 ,通过 机 套数 据 结 
构 、 列 存储 和 查询 树 等 软件 技术 来 实现 Web 规模 数据 查询 性 能 的 飞跃 提升 。 因 此 ,交互 式 
计算 模式 (Interactive Computing System) 可 以 定义 为 一 种 运行 在 廉价 商业 硬件 平台 上 , 通 


过 特定 软件 技术 来 实现 超大 规模 数据 的 查询 的 分 布 式 计算 系统 。 
目前 ,交互 式 计算 的 商业 产品 主要 有 Google 的 Dremel, PowerDrill-? ,开源 技术 有 
Apache Drill“ , Cloudera 公司 支撑 的 Apache 培育 项 目 Impala, F m x: 9€ 4 Google 


Dremel 和 Apache Drill 为 例 介 绍 交互 式 计算 模式 的 数据 模型 .存储 结构 .计算 架构 及 核心 技术 。 


14.1 数据 模型 


大 数据 交互 式 分 析 的 计算 架构 主要 包括 三 个 方面 : 数据 结构 ,存储 体系 ,计算 模型 。 数 
据 结构 是 指 计算 模型 采用 的 特殊 设计 的 数据 格式 及 组 装 方式 ,比如 MapReduce 采用 键 值 
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对 ,Spark 采用 分 布 式 弹 性 数据 集 ,Dremel 采用 的 是 嵌 套 数据 结构 。 

Dremel 采 用 了 与 XML? 、JSON 中 这 类 数据 描述 语言 相 类 似 的 一 种 数据 格式 Protocol 
Buffert^? , 它 是 Google 的 一 个 开源 项 目 ,用 于 结构 化 数据 的 序列 化 转换 ,不 绑 定 于 任何 编 
程 语言 或 平台 , 比 XML 更 小 、 更 快 ,也 更 简单 ,用 户 可 基于 Protocol Buffer 定义 自己 的 数据 
结构 ,然后 使 用 自动 生成 的 解码 器 程序 来 方便 地 读 写 这 个 数据 结构 。 一 个 Protocol Buffer 
格式 文件 内 容 如 下 。 

message Document { 

required int64 DocId; 
optional group Links { 
repeated int64 Backward; 


repeated int64 Forward; 
) 


repeated group Name { 
repeated group Language ( 
required string Code; 
optional string Country; 
) 


optional string Url; 


) 


该 段 数据 结构 定义 了 如 下 内 容 。 

(1) 一 个 Protocol Buffer 格式 的 消息 Document。 

(2) 该 消息 包含 三 个 字段 : 一 个 int64 字段 ,两 个 group 类 型 字段 。 

(3) 其 中 的 repeated, required optional 是 字段 限制 符 。 

(D required: 必 须 赋值 的 字段 。 

@ optional: 可 有 可 无 的 字段 。 

@ repeated: 可 重复 字段 ( 变 长 度 ) 。 

Protocol Buffer 数据 格式 可 用 数学 公式 表达 为 : 

z—dom|« A; :z[ * |?],…,A,:r[Cx |?]> 

这 里 ,x 是 一 个 数据 类 型 ,而 Protocol Buffer 文件 可 包含 一 个 或 多 个 数据 类 型 。 

区 有 两 种 可 能 (| ?是 OR 的 意思 ) : 一 种 是 基本 类 型 dom( 如 int,float,string 等 ); 另 一 
种 是 使 用 递归 方式 定义 的 , 即 x 可 以 由 其 他 定义 好 的 组 成 ,Al,…,A, 是 这 些 x 变量 的 
命名 。 

“x ”表示 m 包含 的 变量 可 以 是 重复 型 (repeated), 即 有 多 个 ;“?” 表 示 是 可 选 型 
(optional) , 即 不 包含 任何 元 素 。 

在 Protocol Buffer 中 可 定义 如 下 的 岩 套 数据 类 型 。 

message SearchResponse 

message Result 


t 
required string url - 1; 


optional string title = 


2; 


repeated string snippets - 3; 


) 
repeated Result result - 1; 


) 
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其 中 ,Result Æi £ fE SearchResponse 中 的 一 个 数据 结构 。 如 果 在 SearchResponse 
之 外 另 有 一 个 变量 要 使 用 Result, 可 采用 parent-name. child-name 的 形式 调用 ,如 下 所 示 。 


message SomeOtherMessage 
{ 


optional SearchResponse. Result result = 1; 


} 


14.2 存储 结构 


在 讨论 存储 结构 之 前 ,首先 定义 如 下 概念 。 

数据 记录 : 指 一 条 完整 的 内 套数 据 , 如 果 是 在 数据 库 中 ,一 条 记录 就 是 一 行 数据 。 

值 域 或 字 码 段 : 值 域 或 字 码 段 在 大 部 分 情况 下 指 的 是 同一 个 概念 ,是 嵌 套 数据 结构 中 
的 一 个 子 项 或 元 素 ,在 数据 表 中 就 是 一 个 列 。 

列 : 数据 结构 中 的 一 个 值 域 或 字 码 段 在 存储 时 就 是 一 个 列 。 

比如 Google 搜索 引擎 抓 来 的 一 个 网 页 的 数据 就 是 一 条 记录 ; 而 将 数据 结构 化 之 后 其 
中 的 Forward, Backward 链接 、Url 地 址 等 子 项 就 成 为 值 域 或 字 码 段 ; 在 存储 时 将 原始 记录 
按 字 码 段 切 分 ,各 个 字 码 段 的 值 集中 存储 (比如 将 所 有 记录 中 Url 这 一 列 的 值 放 在 一 起 存 


储 ) ,就 形成 列 。 


对 于 前 述 的 Document 嵌 套 数据 类 型 ,图 14-1 右上 的 代码 可 以 产生 如 下 两 条 数据 记录 
CEP Protocol Buffer 文件 包含 的 消息 数据 ), 即 图 14-1 中 的 m 和 。 


Language 
Code: '* 
Country: 

Language 
Code: 

Url: — "http: 

: C'http: 


Language 
Code: * 
Country: 





'en-us' 
"us! 


en 
/A 
JJ/B' 


en-gb' 
'gb' 


message Document { 
required int64 Docld; 
optional group Links { 
repeated int64 Backward; 


———— repeated int64 Forward; } 





repeated group Name { 
repeated group Language ( 
required string Code; 
optional string Country; } 
optional string Url; }} 


Docld: 20 r2 

Links 
Backward: 10 
Backward: 30 
Forward: 80 

N: 








ame 
Url: _'http://C' 


图 14-1 两 条 嵌 套 数据 记录 mr Mr 


E 大 数据 分 析 与 计算 


上 述 数据 记录 实际 上 可 以 用 表格 形式 表示 ,如 表 14-1 所 示 。 
表 14-1 数据 记录 的 表格 形式 


Name 








DocId Language 
Backward Forward 
Code Country 
10 null ia 20 iss en-us us http://A 
20 10 RE 80 SA null null http://C 
































表 中 的 “.…" 表 示 未 列 出 的 多 列 数据 ( 变 长 度 ) 。 


上 述 二 维 表 数 据 在 存储 空间 存储 时 有 两 种 方式 : 行 存储 和 列 存储 ,如 图 14-2 所 示 。 行 
存储 是 以 数据 表 的 行 键 (RowKey) 为 基准 .以 数据 记录 (record) 为 单位 进行 存储 ,每 一 行 数 
据 包含 一 个 对 象 或 事务 的 完整 记录 ,每 一 行 记 录 包 含 多 个 值 域 (图 14-2 左边 mn M r 的 不 同 
颜色 块 表示 不 同 的 值 域 ;。 列 存储 则 是 将 不 同 记录 的 相同 值 域 (r, 和 re 的 相同 颜色 块 ) 放 人 
一 个 列 中 存储 ,采用 的 是 树 状 存储 结构 ,如 图 14-2 右边 所 示 。 

A 


MEE. 
B U E 
c A CSI D H 
n 
A! E 
n 
record- column- T2 | 
oriented oriented 


图 14-2 行 存储 vs. 列 存储 


如 果 是 行 存储 ,在 读 取 数 据 时 (查找 一 条 记录 的 某 个 值 域 ) 需 要 完成 两 个 步骤 : DA é 
按 行 键 (RowKey) 查 找到 该 行 ; @ 横 向 向 右 搜 索 , 跳 过 不 相关 值 域 ,直到 找到 查询 项 。 这 种 
存储 方式 使 得 每 读 一 个 RowKey 后 ,都 需要 跳 到 下 一 个 RowKey 的 位 置 ,所 有 要 搜索 的 字 
段 都 不 是 连续 存放 , 且 有 些 值 域 是 变 长 度 的 字符 串 ,不 能 通过 简单 公式 计算 得 到 地 址 ,查询 
起 来 效率 非常 低 。 

而 如 果 按 列 存储 方式 ,只 需 按 树 状 结构 找到 需要 查询 列 第 一 个 值 域 的 首 地址 ,然后 顺序 
读 取 数据 (每 个 record 对 应 值 域 的 地 址 飘移 值 (offset) 都 记录 在 元 数据 表 中 ) ,不 需要 扫描 
其 他 不 相干 的 列 ,不 仅 实现 简单 ,而 且 磁 盘 顺 序 读 取 比 随机 读 取 要 快 得 多 ,而 且 更 容易 进行 
优化 (比如 把 临近 地 址 的 数据 预 读 到 内 存 , 对 连续 同类 型 数据 进行 压缩 存放 ) ,效率 大 大 
提高 。 

图 14-3 KR T RERE A E 14-1) 按 照 如 图 14-2 所 示 的 列 存储 模式 的 实际 存储 结 
构 。 这 里 ,记录 项 mn 和 rs 基于 值 域 ( 列 ) 被 拆 分 成 字 码 段 ,每 一 个 字 码 段 都 用 一 个 表 存 储 , 字 
BEARR TREH. n 和 r; 的 嵌 套 数据 结构 包含 Docld、Forward、Backward、Code、 
Country, Url 等 值 域 , 按 骨 套 结构 可 以 表示 为 : 








第 14 章 交互 式 计算 模式 dn 


DocId 

Links. Forward 

Links. Backward 

Name. Language. Code 

Name. Language. Country 

Name. Url 
按照 列 存储 格式 ,可 以 把 数据 记录 项 mn 和 的 相同 值 域 放 入 同一 个 存储 表 存 放 , 而 每 一 个 
存储 表 只 包含 一 列 字 码 段 的 值 ,如 图 14-3 的 诸 列 存储 表 所 示 。 在 存 人 值 时 ,会 按照 Schema 
的 定义 给 无 值 字 码 段 添 加 NULL 值 ,这 有 助 于 以 后 的 数据 重 装 。 除 了 value 值 ,每 个 字 码 段 
存储 表 还 多 了 r(Repetition Level) 和 d(Definition Level) 两 个 量 ,这 两 个 量 是 Google 结合 
Protocol Buffer 定义 的 辅助 变量 ,使 得 按 字 码 段 分 拆 存 储 的 列 存储 表 最 终 能 够 按照 原 有 数 
据 结构 重新 组 装 成 记录 。 


Docld Name.Url Links.Forward || Links.Backward 


r d 
10 |0 0 http//A 
00 


















































02 20 |0 2 NULL |O 1 
20 htip/B | 1 2 40 12 10 |0 2 
NULL |1 1 6 |1 2 30 |1 2 
http//C |0 2 80 |0 2 
Name.Language.Code Name.Language.Country 
en-us us 0 
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图 14-3 按 字 码 段 拆 分 的 列 存储 表 


列 存储 格式 对 于 快速 读 取 的 情况 更 为 有 利 , 但 对 于 写 人 操作 而 言 ,无 论 添加 、 删 除 、 修 改 
都 是 行 存储 更 为 有 利 。 如 果 对 列 存储 格式 进行 数据 插入 ,需要 对 一 长 列 顺序 排列 数据 找到 
插入 数据 所 属 record, 然 后 将 新 数据 插入 相应 位 置 , 再 对 插入 位 置 之 后 的 数据 重新 计算 位 
置 ,非常 麻烦 。 删 除 操作 也 是 一 样 。 修 改 操作 如 果 被 修改 的 值 域 是 类 似 字符 串 的 不 定 长 字 
段 , 其 操作 成 本 也 非常 高 。 

数据 库存 储 结构 设计 往往 需要 同时 照顾 到 读 和 写 的 效率 ,不 能 简单 地 一 概 而 论 列 存储 
比 行 存储 就 好 。 列 存储 读 取 效 率 虽然 高 ,但 除了 上 面 说 的 添加 、 删 除 、 修 改 操作 成 本 高 外 , 纯 
粹 的 列 存储 格式 还 无 法 支持 数据 表 的 join 操作 ,因此 列 存储 数据 库 往 往 需 要 额外 设计 元 数 
据 表 、 添 加 各 类 索引 机 制 . 使 用 各 种 树 状 或 图 型 结构 来 提高 效率 ,在 读 和 写 之 间谍 得 一 个 平 

不 管 是 行 存储 或 列 存储 ,在 存储 物理 结构 (内 存 或 磁盘 ) 中 都 是 顺序 存储 方式 。 基 于 行 
存储 的 关系 型 数据 表 由 于 每 行 和 每 个 值 域 的 长 度 固定 (因此 也 造成 空间 浪费 ) ,将 二 维 数据 
表 映 射 到 一 维 顺序 存储 或 者 从 顺序 存储 恢复 到 数据 表 都 十 分 方便 。 但 要 将 图 14-2 左边 的 
列 存储 树 状 结构 映射 到 一 维 顺序 存储 格式 或 是 将 顺序 存储 结构 恢复 到 原来 的 逻辑 数据 结 
构 , 就 要 复杂 得 多 。 

Dremel 在 将 列 存 储 树 状 结构 映射 到 一 维 顺序 存储 时 ,需要 考虑 将 来 恢复 嵌 套 数据 结构 
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如 何 满足 下 面 两 个 要 求 。 

CD 列 存储 格式 记录 的 无 损 表达 。 

(2) 嵌 套 数据 结构 的 高 速 组 装 , 即 从 列 存储 表 恢 复原 有 谋 套 数据 结构 。 

Dremel 采用 了 下 面 的 Repetition Level 和 Definition Level 定义 及 阅读 器 的 有 限 状 态 
机 (FSM) 设 计 来 实现 上 述 两 个 功能 。 


1. Repetition Level 


Dremel 采用 的 是 列 存储 结构 。 对 于 图 14-1 的 Document 格式 的 数据 记录 n ,以 其 一 个 
值 域 “Code? 为 例 ,其 存储 路 径 为 : Name— Language Code, HP. Name 和 Language 均 是 
repeated 类 型 ,如 图 14-4 所 示 。 

由 于 Dremel 是 列 存储 结构 ,因此 Code 在 物理 








m 存储 时 单独 作为 一 个 列表 存储 ,如 图 14.5 所 示 。 表 
Forward: 20 内 “value” 一 栏 是 Code 的 值 ,“r” 一 栏 表示 该 项 Code 
dae 值 对 应 的 Repetition Level,“d" 一 栏 表示 该 项 对 应 的 

Name Definition Level。Name. Language. Code 表 最 左边 
[temer o 一 列 各 value 值 的 存储 路 径 如 下 (从 顶级 第 一 个 
cr Name 开始 ,不 跳 过 重复 项 ,直到 最 终 值 域 项 ) 。 

[> Language en-us: Name—> Language—> Code ( i4 k RA E 

Uk tau iut 
Name en; Name — Language — Language — Code ( £j 
Url: "http//B' Language 重复 ) 
wom NULL: Name>Name( RREH Name 不 包 
Code: 'en-gb' A Language, 也 就 无 Code, 但 路 径 上 有 Name 重复 ) 
County: 'gb' en-gb; Name > Name > Name — Language 一 





Code( 路 径 上 有 Name 重复 ) 

NULL: 记录 图 14-1 中 文档 r 的 Name. 
Language. Code 的 值 (如 r; 的 Name 无 Language, 也 就 无 Code) 

WRR E fi t hg F i Bt DoclId、Name、Language、Code、… 可 定义 为 不 同 的 等 级 , 则 
Repetition Level 可 定义 为 : 庶 套 结构 的 一 个 最 终 值 域 的 Repetition Level 等 于 从 最 高 等 级 字 
码 段 抵达 此 值 域 的 路 径 上 重复 的 字 码 段 的 等 级 ; 如 果 没 有 重复 , 则 Repetition Level = 0。 

以 值 域 ( 字 码 段 )Code 为 例 , 它 的 路 径 上 包含 DocId、Name、Language 575783 Bt . fz BEER 
套 从 属 关系 ,Docld 等 级 最 高 .Name 次 之 ,Language 低 于 Name. Code 更 低 于 Language. 可 
以 定义 各 自 的 r+ 值 分 别 为 0,1,2,3。 以 Code: 'en ' 为 例 , 其 抵达 路 径 为 : Name Language 
Language>Code, i4% LH Language 重 复 ,而 Language 的 等 级 值 为 2, 因 此 Code: ‘en’ ff 
r— 42, 

根据 上 述 Repetition Level 的 定义 和 计算 方法 ,可 计算 Name. Language. Code 表 中 各 
项 value 值 (计算 过 程 如 图 14-6 所 示 ) ,并 将 计算 结果 列 于 表 中 “r” 一 列 ( 图 14-5)。 


2. Definition Level 


某 一 值 域 p 的 Definition Level 定义 为 : 在 抵达 值 域 p 的 路 径 上 .可 能 不 存在 类 型 (如 


图 14-4 r RESAH 
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Name.Language.Code 
value 
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en-gb 
NULI 
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Links 
Forward: 
Forward: 
Forward: 60 
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Language 


Language 
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Code: 
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Code: 'en' 


Code: 'en-gb' 
Country: 'gb' 














图 14-5 Name. Language. Code 列 存储 表 


Dremel 模 型 ， Repetition Level 


Level=1 


en-gb 路 径 上 Name 重 复 ， 
所 以 en-gb 的 三 Name 的 
Levelff. Br-1 


路 径 








Language 


en 路 径 上 Language 重 复 ， 
所 以 en 的 r=Lan! 


Level 值 ， fh 


uage 的 
=2 


u; 


en-us 路 径 上 无 任何 节 
点 重复 ， 所 以 en 的 r=0 


ru 
Code:NULL 


为 了 保持 结构 无 损 ， 在 
Name 重 复 ， 所 以 r=1 


Code:en-gb 


S 








图 14-6 Repetitional Level 计算 过 程 


optional 型 和 repeated 型 ) 字 码 段 却 实际 存在 的 数目 。 

如 图 14-7 所 示 ,在 抵达 Code: en-us 的 路 径 上 .Name 和 Language 都 是 可 能 不 存在 型 
字 码 段 (Name 为 repeated 型 ,Language 为 optional 型 ), 但 它们 此 时 都 存在 , Code 是 
required 型 不 考虑 ,因此 Code: en-us 的 d—2; 对 于 Country: us 而 言 ,抵达 路 径 为 Name— 
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Language Code—Country , KP. Code 是 required 型 不 考虑 , Name、Language、Country 都 
是 可 能 不 存在 型 但 此 时 都 存在 ,因此 Country:us RJ d—3; 对 于 Country: NULL 而 言 ,抵达 
路 径 为 Name—> Language — Code— Country. 由 于 此 处 Country 不 存在 , 仅 有 Name 和 
Language 存在 ,Code 是 required 型 不 考虑 ,因此 Country; NULL 的 d 二 2。 以 此 方法 可 计 
算 图 14-5 表 中 各 项 Code 的 Definition Level 值 。 


Dremel 模 型 : Definition Level 





Level=1 Level=2 Level=3 








t 
Name repeated 
所 以 d=2 
Nmae 是 repeated 
Language 是 optional 
Code 是 required 
是 opti 
i 
Country: Country 本 身 不 存在 
NULL 所 以 d=2 
EG | 
E 





图 14-7 Definition Level 计算 过 程 


需要 注意 的 是 ,在 计算 Definition Level 值 时 ,路 径 上 的 可 以 不 存在 型 (optional 型 或 
repeated 型 ) 实 际 存在 多 次 时 (比如 图 14-7 中 最 后 的 Country: gb 的 路 径 上 Name 出 现 了 三 
次 ), 只 计算 一 次 。 

Repetition Level 和 Definition Level 一 起 可 以 正确 无 误 地 将 物理 存储 的 列 式 存储 结构 
转换 为 原 有 的 嵌 套 数据 结构 ,便于 程序 计算 分 析 。 

3. 数据 重 构 方法 


基于 上 述 Repetition Level 和 Definition Level 的 定义 ,Dremel 可 以 方便 地 构建 Writer 
树 并 将 图 14-1 的 组 套数 据 结 构 拆 分 成 如 图 14-3 所 示 的 多 个 列 存储 表 进 行 存储 。 对 于 从 顺 
序 存储 结构 (物理 存储 ) 中 重 构 处 嵌 套 数据 结构 (逻辑 结构 ),Dremel 采用 了 如 下 的 阅读 器 
(Reader) 有 限 状 态 机 (Finite State Machine,FSM) 设 计 , 以 完成 图 14-3 存储 表 到 图 14-1 数 
据 结 构 的 快速 重建 。 
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在 如 图 14-8 所 示 的 数据 结构 重建 过 程 中 ,Dremel 按照 数据 结构 Schema 采用 多 个 不 同 
的 阅读 器 来 读 取 并 处 理 不 同 的 字 码 段 ,对 于 每 一 个 字 码 段 FSM 都 从 开始 到 结束 循环 一 次 。 
r 值 用 于 控制 Reader 的 转换 (对 不 同 的 字 码 段 使 用 不 同 的 Reader) 。 以 图 14-8 为 例 ,各 个 字 
码 段 的 FSM 状态 机 转换 规则 如 下 。 

DocId: Readerl 从 DocId 存储 表 头 (图 14-3) 开 始 阅读 , 读 到 r= 0 即 转换 成 另外 一 个 
Reader2( 意 味 着 开始 读 取 另 外 一 个 字 码 段 Links. Backward) 。 

Links. Backward: Reader2 从 Links. Backward 存储 表 ( 图 14-3) 前 次 停止 位 置 开始 阅 
读 , 读 到 r=1 则 继续 阅读 .重建 , 读 到 r=0 即 转换 成 Reader3 (iX Ht 57 83 Bt Links. 
Forward) 。 

Links. Forward: Reader3 M Links. Forward 存储 表 ( 图 14-3) 前 次 停止 位 置 开 始 阅读 ， 
读 到 r— 1 则 继续 阅读 、 重 建 , 读 到 r— 0. 即 转换 成 Reader4( 读 取 字 码 段 Name. Language. 
Code) 。 

Name. Language. Code; Reader4 从 Name. Language. Code 存储 表 ( 图 14-3) 前 次 停止 
位 置 开始 阅读 , 读 到 r= 二 0 或 1 或 2 即 转换 成 Reader5( 读 取 字 码 段 Name. Language. 
Country) 。 

Name. Language. Country; Reader5 从 Name. Language. Code 存储 表 ( 图 14-3 ) 前 次 停 
止 位 置 开始 阅读 , 读 到 r=0 或 1 即 转换 成 Reader6( 读 取 字 码 段 Name. UrD ; i$ r—2 即 
转换 成 Reader4( 返 回 读 取 字 码 段 Name. Language. Code) 。 

Name. Url; Reader6 从 Name. Url 存储 表 ( 图 14-3) 前 次 停止 位 置 开 始 阅读 , 读 到 r— 1 
即 转换 成 Reader4( 返 回 读 取 字 码 段 Name. Language. Code); 读 到 r—0 即 结束 阅读 。 

r 值 决定 了 有 限 状 态 机 FSM 是 否 反 复 阅 读 或 是 切换 Reader, 也 确定 了 肉 套 结构 中 值 域 
的 值 (value) ,d 值 则 帮助 我 们 确定 某 些 值 域 的 值 是 否 是 想象 出 来 的 ( 即 是 NULL)。 依 照 上 
述 FSM 有 限 状 态 机 法 则 ,根据 存储 表 的 r+ 值 和 d fÉ, Dremel 即 可 通过 扫描 顺序 存储 结构 的 
多 个 列 存储 表 , 正确 无 误 地 重建 嵌 套 数据 结构 。 


0 


(7 Links Backward | LinksForward i 
0 


一 
0.1.2 
( Name.Language.Code 一 一 Name.Language.Country ) 
2 


0 














图 14-8 阅读 器 (Reader) 的 FSM 


图 14-9 表示 了 一 个 简单 嵌 套 数据 结构 及 其 对 应 的 FSM 状态 机 ,下 面 以 其 为 例 说 明 按 
照 FSM 状态 机 规则 从 列 存储 表 ( 图 14-10 左边 ) 重 建 嵌 套数 据 记 录 ( 图 14-9 右边 ) 的 具体 
步骤 。 

步骤 上 四: Readerl( 用 来 读 DocId 存储 表 ) 读 DocId 表 第 一 行 ,r 王 0, 提 供 重 构 DocId 的 
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依据 。 

步骤 四: Readerl i DocId 表 第 二 行 ,再 次 读 到 r 一 0,Readerl 停留 在 表 DocId 的 当前 
位 置 ,状态 机 切换 到 Reader2( 用 来 读 Name. Language. Country X). 

JpURG). Reader2 i£ Name. Language. Country K 56 — fT. r= 0. H [IE EH Name. 
Language. Country 表 的 依据 。 

步骤 田 : Reader2 读 Name. Language. Country 表 第 二 行 ,r 一 2, 提 供 重 构 Name. 
Language. Country 表 依 据 ,继续 读 Name. Language. Country 表 。 

HO: Reader2 i$ Name. Language. Country X 55 = íF. r= 1. f (IE E H Name. 
Language. Country 表 依 据 ,继续 读 Name. Language. Country X. 

步骤 @: Reader2 j£ Name. Language. Country d 58 PU íF. r= 1.4 {t E H Name. 
Language. Country 表 依 据 ,继续 读 Name. Language. Country X, 

步骤 加: Reader2 i£ Name. Language. Country 表 第 五 行 ,再 次 读 到 r— 0. Reader2 停留 
TER Name. Language. Country 当前 位 置 ,状态 机 切换 回 Readerl ,继续 读 DocId 表 。 

步骤 @): Readerl 从 当前 位 置 ( 也 即 上 次 停留 位 置 ) 继 续 读 DocId 表 第 二 行 ,r= 二 0, 提 供 
重 构 DocId 表 的 依据 。 

HRO: DocId 表 已 读 到 表 尾 ,Readerl 结束 。 状 态 机 切换 回 Reader? ,继续 从 上 次 停 下 
位 置 读 Name. Language. Country 表 ( 此 时 指向 表 最 后 一 行 ),r 二 0, 完 成 Name. Language. 
Country 重 构 。Reader2 到 达 表 尾 , 重 建 全 部 结束 。 
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图 14-9 简单 嵌 套 数据 结构 及 其 FSM 


总 结 上 述 内 容 ,Dremel 的 数据 模型 和 存储 结构 的 要 点 如 下 。 

(1) Dremel 采用 了 平台 无 关 的 数据 格式 Protocol Buffer 来 描述 骨 套 数据 结构 ,这 种 向 
套数 据 结构 提供 了 一 种 海量 数据 规模 下 的 高 效 存 储 和 读 取 方式 。 

(2) Dremel 采用 了 基于 值 域 的 列 存储 结构 ,即将 数据 记录 基于 列 拆 分 成 多 个 列 存储 
表 , 多 个 记录 的 相同 值 域 的 值 存放 在 同一 列 存储 表 中 。 在 物理 存储 时 将 多 个 列 存储 表 进 行 
顺序 存储 。 

(3) Dremel 的 列 存储 表 中 不 仅 包含 各 记录 的 列 值 ,还 包含 对 应 的 + ff (Repetition 
Level) 和 d ffi (Definition Level) ,Dremel 对 每 个 值 域 按照 有 限 状态 机 (FSM) 规 则 读 取 顺序 
存储 的 列 存储 表 并 进行 数据 记录 的 重 构 。 

(4) 每 次 对 顺序 存储 的 物理 表 进 行 扫描 和 数据 记录 重建 时 ,Dremel 并 不 需要 扫描 和 重 
建 全 部 数据 ,而 可 根据 需要 只 扫描 部 分 数据 ,重建 感 兴趣 的 值 域 ( 列 ) 。 
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图 14-10 按照 FSM 重建 数据 记录 的 步骤 
14.3 ”并行 查询 


Dremel 的 上 述 骨 套数 据 模型 和 列 存储 设计 ,都 是 为 了 支撑 对 超大 规模 数据 (PB 量 级 ) 
的 快速 查询 ( 秒 级 ) ,比如 3s 的 时 间 处 理 完 对 1PB 数据 的 查询 所 Dremel 使 用 一 种 定制 的 
类 似 SQL 的 查询 语言 ,可 在 艇 套 列 存储 数据 结构 上 进行 高 效 查 询 。 这 种 SQL-like 查询 语 
句 以 一 个 或 多 个 嵌 套 数据 结构 及 其 Schema 作为 输入 ,输出 的 也 是 一 个 榜 套 数据 记录 及 
Schema 定义 。 

Dremel 采用 的 是 多 层 服务 树 计 算 架 构 , 如 图 14-11 所 示 。Dremel 集群 最 上 层 的 根 服务 
器 接收 所 有 的 客户 端 查询 请 求 ,并 把 查询 语句 分 解 , 读 取 相 关 元 数据 ,再 把 分 解 后 的 请 求 下 
发 中 间 服 务 器 。 中 间 服 务 器 进一步 把 查询 需求 分 发 到 它 所 属 的 下 级 叶 节点 服务 器 完成 并 行 
计算 。 数 据 记 录 存 储 在 叶 节 点 服务 器 的 本 地 文件 系统 上 , 叶 节点 完成 计算 处 理 后 ,其 返回 计 
算 结果 的 过 程 与 上 述 步 又 逆向 而 行 。 
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图 14-11 Dremel 查询 树 架 构 
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以 一 个 简单 的 Dremel SQL 查询 为 例 : 
Select A, Sum(B) From T GroupBy A; 


其 中 ,A 和 B 是 数据 表 工 的 两 个 列 。 
当 根 服务 器 从 客户 端 收 到 这 个 查询 时 , 它 将 查询 重 写 为 : 


Select A, Sum(C) From Union (R[1,i], --,R[1,N]) Group By A; 


这 里 R[1, 让 是 第 i 个 中 间 节 点 返回 的 计算 结果 。 
同样 的 查询 重 写 会 在 各 层 节点 上 递归 继续 下 去 ,直到 达到 叶子 节点 为 止 。 


Select A, Sum(B) as C From T[1, i] Group By A; 


这 里 T[1, 让 是 第 i 个 节点 上 的 工分 区 。 

服务 树 的 计算 构架 与 MapReduce 的 计算 构架 (Map/Shuffle/Reduce) 相 比 ,更 适合 于 超 
大 规模 数据 查询 的 筛选 和 聚合 运算 ,执行 速度 更 快 ,有 如 下 几 点 原因 。 

CD 列 存储 结构 使 得 查询 仅 需 扫 描 它 关心 的 列 存储 表 ( 字 码 段 ) ,而 无 须 扫描 全 部 数 
据 集 。 

(2) 由 于 服务 数 架构 , 根 节点 和 中 间 节 点 只 起 任务 分 解 和 结果 汇聚 作用 ,最 后 的 计算 处 
理 是 在 叶 节 点 进行 , 叶 节 点 相互 之 间 没 有 依赖 关系 ,因此 可 以 实现 高 并 发 度 的 并 行 处 理 。 

(3) Dremel 主要 用 于 支持 数据 查询 业务 (并 不 擅长 数据 增删 操作 ) ,这 种 列 存储 结构 和 
服务 树 并 行 处 理 模式 对 查询 操作 性 能 的 优化 尤其 明显 。 

Dremel 查询 服务 树 的 层级 数 可 以 人 为 设 定 。 比 如 ,一 个 有 3000 个 叶子 服务 器 节点 的 
系统 ,服务 树 可 以 只 有 两 层 (1 : 30000 , 即 一 个 根 服务 器 和 3000 个 叶子 服务 器 ; 或 者 三 层 
(1: 100 : 3000) , 既 增 加 100 个 中 间 服 务 器 ; 甚至 四 层 (1 : 10 : 100 : 3000)。 如 果 选 择 只 
有 两 层 , 根 服务 器 很 容易 成 为 计算 瓶颈 。 而 当 服 务 树 有 三 层 或 四 层 时 ,整个 系统 的 并 行 度 得 
到 提高 ,执行 性 能 也 大 大 优化 ( 约 6 倍 左右 ); 再 多 的 层级 ,如 五 层 或 六 层 , 对 于 系统 的 性 能 
提高 并 无 太 多 帮助 。 

在 实际 应 用 中 ,Dremel 使 用 的 特殊 结构 数据 常常 由 MapReduce 计算 输出 结果 转换 而 
来 ,但 测试 结果 证 明 优化 数据 结构 带 来 的 性 能 收益 足以 覆盖 数据 结构 转换 的 成 本 。 对 
Dremel 系统 一 个 月 的 查询 操作 时 间 的 统计 分 析 结 果 趾 表明 : 大 于 98% 的 查询 操作 响应 时 
间 低 于 10s, 响 应 时 延 超 过 10s 不 到 276 (图 14-12)。 其 中 , 某 些 查 询 任 务 扫 描 的 数据 记录 数 
达到 1000 亿 条 。 
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图 14-12 Dremel 的 查询 响应 时 间 
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Dremel 在 超大 规模 数据 实时 查询 上 的 性 能 大 大 优 于 MapReduce 模型 ,但 它 并 不 是 
MapReduce 的 替代 品 , 而 只 是 一 些 应 用 领域 对 MapReduce 交互 式 实时 查询 能 力 不 足 的 补 
充 。Dremel 也 存在 如 下 局 限 性 。 

(1) 中 间 数 据 集 和 最 后 结果 集 不 能 太 大 ,要 小 于 一 台 服 务 器 节点 的 内 存 容 量 。 比 如 一 
个 服务 器 节点 的 内 存 是 8GB, 中 间 数 据 集 和 最 终结 果 则 需 远 小 于 8GB, 因 为 还 需 考虑 到 服 
务 器 的 其 他 内 存 开销 。 如 果 中 间 数 据 集 过 大 ,查询 将 失败 。 相 比 之 下 ,MapReduce 没有 对 
中 间 数 据 集 的 限制 ,因为 数据 量 增 大 ,MapReduce 会 输出 到 磁盘 空间 存储 (磁盘 1/0 也 造成 
性 能 下 降 ) 。 

(2) Dremel 对 于 Table Join 的 支持 很 有 限 ,只 支持 一 个 大 Table 和 多 个 小 Table 之 间 
的 Join(Star Join) 。 小 Table 数据 要 小 于 一 个 服务 器 节点 的 内 存 容量 ,实际 上 不 能 大 于 几 
百 MB。 支 持 两 个 大 Table 在 任意 一 列 上 的 Join, 对 于 任何 分 布 式 系 统 都 是 死 祥 。Dremel 
采用 的 列 存储 格式 决定 了 它 不 适宜 于 进行 两 个 大 表 之 间 的 Join 操作 ,也 不 适宜 于 执行 一 般 
通用 的 SQL 查询 。 

G) 在 一 个 大 的 分 布 式 集群 中 执行 并 行 计算 ,除了 负载 均衡 问题 ,还 需 考 虑 容错 性 。 
Dremel 运行 在 3000 个 节点 上 时 ,很 难 避免 有 少数 节点 运行 缓慢 。 如 图 14-13 所 示 ,99% 以 
上 的 分 区 都 可 以 在 5s 之 内 处 理 完 毕 , 但 仍 有 不 到 1% 的 分 区 拖 的 时 间 很 长 中 。 因 此 Dremel 
提供 了 查询 调度 器 来 动态 调整 任务 分 配 ,改善 延 滞 节点 的 性 能 。 另 外 ,在 计算 处 理 数 据 时 ， 
Dremel 给 出 99% 接 近 正 确 的 结果 要 比 给 出 100% 的 正确 结果 要 快 得 多 。 
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图 14-13 Dremel 的 表格 处 理 时间 分 布 


14.4 开源 实现 


对 应 于 上 述 Dremel 的 概念 和 模型 , 早 在 2012 年 开源 社区 即 启动 了 Apache Drill" j 
化 项 目 , 并 在 2014 年 成 为 Apache 正式 项 目 。Apache Drill 是 一 个 低 延 迟 分 布 式 海量 数据 
交互 式 查 询 引擎 ,覆盖 结构 化 、. 半 结构 化 以 及 赃 套 数据 结构 ,使 用 ANSI SQL 兼容 语法 ,部 
署 在 HDFS, Hive, HBase, MongoDB 等 存储 系统 上 ,支持 Parquet, JSON, CSV, TSV, PSV 
等 数据 格式 ,能 够 支持 上 千 计 算 节点 `PB 量 级 数据 的 交互 式 商业 智能 分 析 应 用 场景 。Drill 
被 很 多 人 看 作 是 Google Dremel 技术 的 开源 实现 。 

总 结 起 来 .Apache Drill 具有 如 下 特点 。 

CD 支持 列 存储 嵌 套 数据 结构 。 

(2) 使 用 SQL-like 查询 语言 。 


E) 大 数据 分 析 与 计算 


(3) 树 查询 结构 。 

(4) 与 Hadoop 平台 集成 。 

1. 计算 架构 

Apache Drill 的 计算 架构 分 为 支持 DrQL 查询 的 客户 端 .Drill 执行 引擎 .底层 存储 系统 
(Hadoop 集群 ) 三 个 层次 ,如 图 14-14 所 示 。 客 户 端 执 行 用 户 程序 的 查询 语句 ,将 查询 请 求 
发 送 给 Drill 执行 引擎 ,后 者 将 查询 语句 进行 层 层 分 解 , 最 后 分 发 到 部 署 在 Hadoop 集群 节 
点 上 的 计算 模块 执行 。 在 计算 节点 上 Drill 使 用 Hadoop/HDFS 作为 底层 的 数据 存储 系统 。 
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图 14-14 Drill 计算 架构 
Drill 的 软件 架构 如 图 14-15 所 示 , 其 核心 是 DrillBit 服务 单元 , 它 负责 接收 客户 端 请 
求 , 处 理 查询 ,并 将 结果 返回 给 客户 端 。DrillBit 单元 能 够 安装 和 运行 在 Hadoop 集群 各 个 
节点 上 ,形成 一 个 分 布 式 计算 环 境 。DrillBit 在 节点 运行 时 能 够 最 大 限度 地 实现 数据 的 本 地 
化 ,不 需要 节点 间 的 数据 移动 。Drill 使 用 ZooKeeper 来 进行 集群 节点 管理 和 运行 状态 监 
dz. RUE Drill 在 多 数 情况 下 运行 在 Hadoop 集群 上 ,但 它 也 可 以 运行 在 其 他 分 布 式 集 


群 上 。 
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14-15 Drill 软件 架构 
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用 户 程 序 可 以 通过 Drill Shell( 命 令 行 界面 )、Web UI, C++ API Cái f Bt H1) 3X JDBC/ 
ODBC 连接 客户 端 向 DrillBit 发 送 SQL 形式 的 查询 请 求 ,部 署 在 集群 各 节点 上 的 DrillBit 
将 完成 查询 语句 的 分 解 、 转 换 、 分 发 及 并 行 执行 ,并 返回 查询 结果 给 用 户 程序 。 

2. DrillBit 单元 

Drill 主要 的 软件 单元 DrillBit 包含 如 下 组 件 ( 图 14-160. 

RPC Endpoint: 一 个 提供 低 开 销 的 基于 Protobuf 的 RPC 通信 的 组 件 。 此 外 ,Drill 也 提 
供 C++ 编 程 接口 和 JDBC/ODBC 连接 界面 用 于 用 户 程序 与 DrillBit 的 交互 。 

SQL Parser: 一 个 使 用 Optiq 开源 框架 的 SQL 解析 器 ,将 SQL 语句 解析 映射 到 对 应 的 
Drill Objects ,该 解析 器 的 输出 是 语言 无 关 的 。 

Optimizer: Drill 执行 语句 优化 器 。 

Storage Plugin Interface; Drill 作为 多 个 数据 源 之 上 的 查询 层 , 它 需 要 与 底层 不 同类 型 
的 存储 系统 (分 布 式 文件 系统 .HBase、Hive 等 ) 对 接 。Drill 以 存储 插件 形式 提供 与 底层 数 
据 存储 平台 进行 交互 的 界面 , 它 提 供 了 下 列 功能 。 

(1) 元 数据 来 源 ; 

(2) 数据 源 读 写 接口 ; 

(3) 数据 的 位 置信 息 ; 

(4) 一 组 有 助 于 查询 效率 的 优化 规则 。 
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图 14-16  DrillBit 单元 组 成 


3. 计算 模型 

与 Dremel 类 似 ,Drill 计算 模型 也 采用 了 查询 树 结 构 , 称 为 execution-tree, 如 图 14-17 
所 示 。 客 户 端 程序 将 查询 请 求 提 交 给 Foreman( 树 根 节 点 root 上 的 DrillBit) ,由 Foreman 
启动 整个 查询 过 程 的 解析 、 优 化 、 分 发 .计算 执行 流程 ,并 负责 将 查询 结构 返回 给 客户 端 。 事 
实 上 ,集群 上 任 一 节点 的 DrillBit 均 可 被 选 作 Foreman. 

Foreman 将 负责 将 查询 语句 解析 并 转化 为 包含 Drill 格式 的 逻辑 操作 语法 的 Logical 
Plan, 并 调用 优化 器 模块 将 Logical Plan 转化 为 包含 计算 流程 的 DAG 图 并 由 Drill 集群 节 
点 执行 的 Physical Plan, 然 后 分 发 给 execution-tree 各 个 叶 节 点 DrillBit 执行 并 行 计算 。 在 
各 个 叶 节 点 上 ,DrillBit 与 本 地 存储 系统 进行 数据 交互 。 

Foreman 的 工作 流程 见 图 14-18。 在 完成 了 对 SQL 查询 语句 的 解析 、 转 换 、 优 化 后 , 形 
成 一 个 描述 执行 步骤 的 Physical Plan。Foreman 的 执行 计划 分 为 多 个 阶段 ,包括 Major 
Fragment 和 Minor Fragment。 这 些 Fragments 根据 配置 的 数据 源 构 成 一 个 多 层次 的 查询 
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图 14-18 Foreman 工作 流程 


树 ,执行 并 行 处 理 。 

Major Fragment; 一 个 抽象 概念 ,代表 执行 过 程 的 一 个 阶段 ,这 个 阶段 由 一 个 或 多 个 操 
作 组 成 ,Drill 为 每 个 Major Fragment 分 配 一 个 MajorFragmentID, Major Fragment 不 执 
行 任 何 的 查询 任务 ,每 个 Major Fragment 被 进一步 划分 成 一 个 或 多 个 Minor Fragment. 由 
后 者 执行 实际 所 需 完成 的 查询 操作 。 

以 图 14-19 为 例 ,在 执行 两 个 文件 的 哈 希 聚合 时 ,Drill 为 这 个 执行 计划 创建 两 个 Major 
Fragments ,第 一 个 MajorFragment0 用 于 扫描 两 个 文件 .第 二 个 MajorFragmentl 用 于 数据 
的 聚合 。Drill 通过 一 个 交换 操作 符 ExchangOperator 分 离 两 个 Fragments。 交 换 改 变 发 生 
在 数据 所 在 位 置 或 者 并 行 执行 步骤 中 ,交换 过 程 由 发 送 器 和 接收 器 组 成 ,允许 数据 在 节点 之 
间 转 移 。 
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图 14-19 Major Fragment 例子 


MajorFragment0 


Minor Fragment: Major Fragment 过 程 可 以 分 解 成 多 级 多 个 Minor Fragments 执行 并 
行 处 理 ,如 图 14-20 所 示 。Minor Fragment 是 内 部 运行 线程 的 逻辑 作业 单元 。 在 Drill 中 一 
个 逻辑 作业 单元 也 被 称 为 碎片 。 

Drill 的 执行 计划 实际 由 Minor Fragments 组 成 .系统 为 每 个 Minor Fragment 分 配 一 
个 MinorFragmentID。 每 个 Minor Fragment 包含 一 个 或 多 个 关系 操作 ,例如 scan, filter, 
join group 等 。 每 个 操作 都 有 特定 的 类 型 和 ID. 每 个 操作 ID 定义 了 它 所 在 的 Minor Fragment 
的 关系 。 

在 集群 层面 Drill 采用 轮 询 (Round Robin) 方 式 调度 可 用 节点 的 DrillBit 执行 Physical 
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图 14-20 Minor Fragment 构成 的 执行 树 














Plan ,在 节点 层面 Drill 根据 上 游 数 据 需 求 来 执行 每 个 Minor Fragment, 使 用 节点 本 地 调度 
算法 来 执行 Minor Fragment。 其 执行 流程 如 下 (图 14-21) 。 

(1) Minor Fragment 可 以 作为 Root, Intermediate 或 Leaf 三 种 类 型 运行 。 一 个 执行 树 
只 包括 一 个 Root Fragment。 执 行 树 坐标 编号 是 从 Root 开始 ,Root 是 0。 数据 流 是 从 下 游 
的 Leaf Fragment 到 Root Fragment, 

(2) 运行 在 Foreman 的 Root Fragment 接收 传人 的 查询 ,从 表 读 取 元 数据 ,分 发 查询 请 
求 并 路 由 到 下 一 级 节点 ,下 一 级 节点 的 Fragment 包括 Intermediate 和 Leaf Fragments. 

(3) Leaf Fragment 在 Leaf 节点 对 数据 表 进 行 扫描 操作 ,并 与 存储 层 进行 数据 交换 ( 访 
问 本 地 磁盘 )。 只 有 Leaf 节点 的 Fragment 才能 读数 据 源 。Leaf Fragment 的 扫描 操作 包含 
以 下 步 又。 

CD 读 取 数 据 源 的 数据 。 

© 将 数据 转换 为 ValueVectors 格式 。 

© 组 装 成 RecordBatch 。 

(D 将 RecordBatch 传递 给 上 一 层 的 Intermediate Fragment, 
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(4) 当 数 据 可 使 用 或 者 能 从 其 他 Fragment 得 到 时 ,Intermediate Fragment 启动 作业 ， 
在 DrillBit 中 执行 计算 处 理 。 

(5) 最 后 结果 汇聚 到 Foreman, 由 Root Fragment 对 结果 数据 进一步 聚合 ,提供 最 终 查 
询 结果 给 客户 端 或 应 用 程序 。 

综 上 所 述 ,可 看 出 Drill 在 计算 架构 设计 方面 具有 如 下 特点 。 

1. 动态 模式 检测 

Drill 在 启动 查询 过 程 时 不 需要 预先 声明 数据 类 型 和 模式 ,Drill 在 执行 过 程 中 可 以 动态 
检测 模式 。 自 描述 数据 格式 如 Parquet, JSON, Avro 以 及 NoSQL 数据 库 都 部 分 描述 了 它 
们 的 数据 格式 ,可 以 为 Drill 在 执行 过 程 中 理解 。 在 Drill 查询 的 执行 过 程 中 数据 模式 是 可 
以 改变 的 , 当 改变 模式 时 ,Drill 的 所 有 操作 需要 重新 配置 模式 。 

2. 数据 模型 灵活 

Drill 允许 访问 嵌 套 数据 的 字 码 段 ( 列 ) ,并 提供 直观 的 易 扩展 的 操作 。 从 数据 模型 的 角 
度 来 看 , Drill 提供 了 一 个 灵活 的 分 层 列 存储 数据 模型 ,可 以 处 理 复杂 的 、 动 态 变化 的 数据 
类 型 。 

3. 分 散 元 数据 

Drill 没有 集中 元 数据 的 需求 ,因此 不 需要 在 一 个 元 数据 库 来 管理 数据 表 和 视图 。Drill 
数据 来 源 于 存储 插件 对 数据 源 的 读 取 , 而 存储 插件 可 以 支持 完整 元 数据 (Hive) 、 部 分 元 数 
据 (HBase) 或 没有 集中 元 数据 (文件 系统 )。 没 有 集中 的 元 数据 意味 着 Drill 可 以 同时 读 取 
和 处 理 多 种 数据 源 。 

4. 可 扩展 性 

Drill 在 所 有 层面 都 提供 了 可 扩展 的 架构 ,包括 存储 插件 .查询 器 .优化 器 .执行 引擎 和 
客户 端 API, 用 户 可 以 自 定义 各 个 层面 的 组 件 来 进行 扩展 。 

另 一 值得 关注 的 交互 式 计算 开源 实现 是 Cloudera 公司 的 Impala, Impala 是 一 个 基 
于 Hadoop/HDFS/HBase 平 台 、 支 持 SQL 语义 查询 .支持 多 种 数据 格式 (Parquet, Avro, 
RCFile.SequeenceFile. Text) ,实现 海量 数据 实时 查询 的 分 布 式 查询 引擎 。 与 Hadoop 常规 
的 MapReduce 十 Hive 批 处 理 模式 比较 ,Impala 据 弃 了 Hive 的 数据 转换 方式 ,而 是 通过 自 
己 的 Trevni 列 式 文件 格式 提供 数据 列 存储 和 处 理 , 大 大 降低 了 响应 延迟 ,实现 了 Hadoop/ 
HDFS 平台 上 的 一 种 交互 式 计算 模式 , 见 图 14-22. 

Impala 的 计算 架构 见 图 14-23, 包 括 命令 行 客 户 端 CLI( 前 端 )、 分 布 式 查询 引擎 
Impalad ri?) , 注册 服务 State Store, 以 及 底层 数据 存储 系统 HDFS/HBase。 各 个 单元 的 
功能 及 结构 描述 如 下 。 

命令 行 客户 端 CLI: 提供 给 用 户 命令 行 工具 (Impala Shell 使 用 Python 实现 ) 供 查询 使 
用 。 另 外 ,Impala 还 提供 了 Hue,JDBC, ODBC 交互 接口 ,供用 户 程序 发 送 查 询 请 求 或 进行 
任务 管理 ,查询 请 求 会 最 后 传 给 ODBC 标准 查询 接口 ,然后 发 送 给 后 端 分 布 式 查询 引擎 
Impalad。 

分 布 式 查询 引擎 Impalad: 运行 在 各 个 DataNode 节点 上 ,用 Impalad 进程 表示 ,多 个 
Impalad 进程 并 行 执行 查询 任务 ,构成 一 个 分 布 式 计算 系统 。Impalad 主要 包含 Query 
Planner,Query Coordinator 和 Query Exec Engine 三 个 组 件 。Query Palnner 接收 来 自 客 
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图 14-22 Hadoop 平台 上 批 处 理 模式 vs, 交互 式 模式 


户 端的 SQL APP 和 ODBC 的 查询 请 求 ,然后 将 查询 请 求 分 解 为 许多 子 查询 任务 ; Query 
Coordinator 则 将 这 些 子 查 询 分 发 到 各 个 节点 上 ,由 各 个 节点 上 的 Query Exec Engine 负责 
子 查询 的 执行 ,最 后 返回 子 查询 的 结果 ,这 些 中 间 结 果 经 过 聚合 之 后 最 终 形成 查询 结果 返回 
给 客户 端 。 
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图 14-23 Impala 计算 架构 


注册 服务 State Store: 一 个 独立 运行 的 State Stored 进程 ,用 于 监控 集群 各 节点 
Impalad 的 运行 状态 及 位 置信 息 , 以 多 线程 模式 处 理 Impalad 的 注册 和 通信 需要 ,与 节点 
Impalad 进程 保持 心跳 连接 。 在 各 节点 处 Impalad 都 会 缓存 一 份 State Store 数据 , 当 State 
Store 离线 时 各 Impalad 仍 可 以 依靠 缓存 数据 维持 运行 。 当 Impalad 发 现 State Store 离线 
时 ,会 进入 Recovery 模式 反复 注册 ; 当 State Store 重新 加 入 后 ,Impalad 更 新 缓存 数据 恢复 
正常 。 但 也 会 发 生 有 些 Impalad 失效 ,但 此 时 缓存 数据 无 法 更 新 ,导致 执行 计划 分 配给 失效 
的 impalad, 导 致 查询 失败 。 

如 前 所 述 ,Impala 软件 系统 分 为 Frontend( 前 端 ) 和 Backend( 后 端 ) 两 个 部 分 ,Frondend 用 
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Java 实现 (通过 JNI f£ A. Impalad) ,负责 查询 计划 生成 ; 而 Backend 的 分 布 式 查询 引擎 用 
C++ 写成 ,负责 查询 任务 的 并 行 执行 。Impala 的 查询 执行 流程 如 下 (图 14-24) 。 

步骤 0: 集群 各 节点 的 Impalad 进程 向 State Store 服务 器 完成 注册 和 订阅 。 

步骤 1: 用 户 程序 通过 CLI 客户 端 向 Impalad 提交 SQL 查询 请 求 , 后 端 接收 查询 请 求 
的 是 Impalad Planner; 客户 端 可 选择 连接 到 任意 一 个 节点 Impalad, 被 连接 的 节点 将 充当 
本 次 查询 作业 的 协调 员 (Coordinator) 。 

步骤 2: Planner 通过 JNI 调 用 Java 前 端 解 释 SQL 查询 语句 ,从 HDFS/HbBase 读 取 元 
数据 与 数据 源 地 址 ,生成 查询 执行 树 。 

步 又 3: 调度 器 Coordinator 把 分 解 后 的 查询 任务 分 发 给 具有 相应 数据 的 其 他 节点 ,由 
Exec Engine 并 行 执行 读 取 数 据 和 计算 处 理 。 当 所 有 计算 完毕 时 ,各 个 Impalad 进程 将 会 把 
各 自 的 计算 结果 发 送 给 充当 Coordinator 的 节点 。 

步 又 4: 由 Coordinator 节点 将 中 间 处 理 结果 进行 汇聚 。 

步 又 5: 最 后 由 Coordinator 将 最 终 查 询 结果 返回 给 客户 端 。 


9 EM&T 
Impalad EM&T 
| mpra | d Impala State Store 
HDFS DataNode 


E 
| 

| 

| 7 

| 一 一 一 一 一 一 办 

' d KA Impalad Rs 
| IONS% |  HDFS DataNode HDFs NameNode 
| | ODBC/IDBC DES 

| Dayer led Impalad 

| | Impalad f 

| 

| 

| 

| 

| 

| 

i i 

| 

| 

| 

| 














2. 获取 元 数据 与 数据 地 址 
HDFS DataNode 











m 
d Meta Date 
、------------ * Impalad Ej MySQL 
LL m 
HDFS DataNode Ed 








图 14-24 Impala 查询 执行 流程 


交互 式 计算 模式 是 对 MapReduce 模式 的 一 个 补充 而 非 蔡 代 ,前 者 适用 于 处 理 数据 量 
大 ,但 数据 输出 少 、 查 询 时 延 要 求 低 的 应 用 场景 ; 后 者 更 适合 数据 吞吐 量 大 、 时 延 要 求 不 高 
的 批 处 理 场景 。 综 合 上 述 对 交互 式 计算 现 有 技术 的 分 析 , 可 得 出 如 下 结论 。 

(1) 高 效 的 文件 系统 和 特殊 的 存储 结构 设计 是 交互 式 计 算 实 现 低 时 延 的 关键 因素 。 
Google 提出 的 典 套 数据 结构 和 列 存储 模式 是 一 个 成 功 的 案例 ,未 来 还 会 有 新 的 数据 结构 被 
提出 。 

(2) 优化 计算 模型 和 并 行 算法 设计 也 是 提高 快速 分 析 性 能 的 一 个 有 效 途 径 。Dremel 
和 Drill 的 查询 树 计 算 模型 以 及 其 他 交互 式 计算 系统 采用 的 数据 内 存 驻 存 技术 都 有 效 地 提 
高 了 交互 式 计算 的 快速 响应 能 力 。 

(3) 与 前 端 RDBS/SQL 应 用 的 集成 , 即 如 何 支持 前 段 的 SQL 查询 功能 ,是 交互 式 计算 

台 设 计 必须 考虑 的 一 个 问题 。 目 前 有 两 种 处 理 方式 : 一 种 是 Dremel 采用 的 与 
MapReduce 计算 引擎 对 接 ,对 MapReduce 的 输出 数据 进行 格式 转换 ; 另 一 种 是 Drill， 
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Impala 采用 的 在 计算 引擎 中 加 入 对 列 存储 数据 格式 的 支持 ,从 而 无 需 数据 转换 步骤 。 这 两 
种 技术 目前 都 有 实现 。 

(4) 除了 列 存储 、 典 套数 据 结构 、 组 合 范围 分 区 等 技术 外 ,提高 内 存 数 据 驻 存 率 以 降低 
读 写 硬盘 的 频率 ,提高 数据 本 地 化 以 减少 节点 间 的 通信 消耗 ,研究 更 优化 的 并 行 处 理 算法 
都 是 改进 交互 式 计算 性 能 的 有 效 途径 。 

(5) 目前 ,在 交互 式 计 算 领 域 ,除了 Google 有 完整 的 文件 系统 /分 布 式 数据 库 / 数 据 结 
构 / 计 算 平台 一 系列 产品 线 ,但 不 对 外 开放 外 ,开源 社区 的 交互 式 计算 平台 存在 架构 不 统一 、 
标准 不 一 致 .技术 分 散 、 系 统 集成 度 差 的 问题 ,就 是 在 Hadoop 平台 上 也 没有 一 个 为 业界 广 
为 接受 的 交互 式 计算 技术 ,在 这 一 领域 还 有 一 段 路 要 走 。 
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习题 


1. 为 什么 说 交互 式 计 算 模式 是 介 于 MapReduce 批 处 理 计 算 和 大 内 存 计 算 之 间 的 一 个 
折 中 解决 方案 ? 它 主要 依靠 什么 技术 实现 ? 

2. 什么 是 列 存储 结构 ? 为 什么 列 存储 结构 的 查询 效率 要 远 高 于 基于 行 存储 结构 的 关 
系 型 数据 库 ? 

3. Dremel 将 嵌 套 数据 结构 在 实际 存储 时 映射 成 一 维 存储 结构 ,在 计算 过 程 中 常常 需 
要 将 内 存 中 的 一 维 存储 结构 恢复 成 原 有 的 数据 结构 。Dremel 是 通过 什么 方法 实现 数据 结 
构 的 无 损 表 达 和 高 速 组 装 的 ? 试 简 述 之 。 

4. 根据 图 14-11 的 Dremel 查询 树 结构 ,说 明 为 什么 中 间 节 点 层 ) 的 层次 不 宜 太 多 ( 比 
如 多 于 两 层 )? 

5. 从 列 存储 结构 和 查询 树 并 行 模型 的 特点 说 明 为 什么 交互 式 计算 模式 只 适宜 于 数据 
查询 业务 ,而 不 适宜 于 数据 增删 操作 。 








在 大 数据 计算 领域 ,对 于 各 种 实时 Web 服务 如 搜索 引擎 `, 电 商 网 站 的 实时 广告 推荐 、 
SNS 社交 类 网 站 的 实时 个 性 化 内 容 推荐 .大 型 网 站 网 店 的 实时 用 户 访问 情况 分 析 等 应 用 场 
景 ,常常 会 遇 到 如 下 这 样 一 类 数据 类 型 。 

CD 数据 实时 持续 到 达 、 到 达 次 序 独立 数据 来 源 众多 ,格式 复杂 数据 规模 大 ; 

(2) 数据 的 价值 随 着 时 间 的 流逝 而 降低 ,数据 处 理 的 重点 不 在 存储 和 持久 性 ,而 在 即时 
响应 分 析 ; 

(3) 对 数据 的 处 理 不 看 重 个 别 数据 ,而 是 整体 结果 或 一 个 时 间 段 上 的 统计 结果 ; 

(4) 数据 包 到 达 的 顺序 和 时 序 无 法 预测 或 控制 ,计算 程序 要 能 够 做 出 应 对 。 

具有 上 述 特 征 的 数据 集合 或 序列 被 称 为 “ 流 数据 "(Stream Data) ,1998 年 由 通信 和 领域 的 
美国 学 者 Monika R. Henziger 中 提出 ,她 将 流 数 据 定义 为 “只 能 以 事先 规定 好 的 顺序 被 读 
取 一 次 的 数据 的 一 个 序列 ”。 数 据 流 可 采用 如 下 的 形式 化 描述 : 

考虑 一 个 向 量 a, 其 属性 域 为 [1…nj](n 为 秩 ), 则 向 量 a fe TER] c 的 状态 可 表示 为 

alt) = <a (t) sera; Ct) as(t) >, i— 101,2, 
可 设 定 在 时 刻 s*,c 是 0 向 量 , 即 对 于 所 有 属性 isai Cs) —0, 

向 量 值 的 改变 是 基于 时 间 变 量 的 线性 又 加 ,即时 刻 1 各 个 分 量 的 更 新 是 基于 (1 一 1) 时 

刻 以 二 元 组 流 的 形式 出 现 的 。 即 1 时 刻 第 i 个 更 新 为 (i,ct) ,意味 着 
Qi(t) = a; — D ct 

针对 上 述 流 数 据 类 型 的 计算 模式 称 为 流 计算 (Stream Computing), VA MapReduce 为 
代表 的 批 处 理 计算 模式 (如 图 15-1(a) 所 示 ) 是 先 将 数据 存储 于 文件 系统 或 数据 库 ,然后 对 存 
储 系统 中 的 静态 数据 进行 处 理 计算 .这 一 步骤 并 不 是 实时 在 线 的 ,因此 又 被 称 为 离线 批 处 理 
模式 。 流 计算 则 是 在 数据 到 达 同 时 即 进行 计算 处 理 ,计算 结果 也 实时 输出 ,原始 输入 数据 可 
能 保留 ,也 可 能 丢弃 (如 图 15-1(b) 所 示 )。 显 然 , 批 处 理 和 流 计 算 这 两 种 模式 适用 于 不 同 的 
大 数据 应 用 场景 。 对 于 实时 性 要 求 不 高 .但 一 次 处 理 的 静态 数据 量 大 ,强调 计算 结果 的 准确 
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性、 完整 性 的 应 用 场景 , 批 处 理 模式 更 合适 ; 对 于 实时 性 要 求 高 ,需要 做 出 即时 响应 ,但 数据 
完整 性 要 求 稍 低 的 场景 , 流 计 算 具 有 明显 优势 。 
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图 15-1 批 处 理 模式 vs, 流 计 算 模式 


流 数据 所 呈现 出 的 实时 性 、 突 发 性 ,无 序 性 、 易 失 性 、 无 限 性 等 特征 使 得 针对 这 类 应 用 的 
分 布 式 计算 系统 的 设计 更 具 挑 战 性 。 目 前 ,主要 的 流 计 算 平 台 包 括 : 2010 年 Yahoo! 推出 
的 S4 流 计算 引擎 BS'9 ,2011 年 Twitter 收购 BackType 的 Storm 流 计算 系统 并 使 它 成 为 一 
个 Apache 开源 项 目 加 , Facebook 提出 的 流 数 据 通道 Data Freeway 和 处 理 引擎 Puma" , 
LinkedIn 的 用 于 日 志 处 理 的 分 布 式 消息 队列 Kafka!" ,以 及 Microsoft 的 低 延 迟 分 布 式 流 数 
据 处 理 系统 TimeStream 中 等 。 这 些 系统 在 计算 体系 架构 .数据 传输 方式 分 布 式 计算 模型 、 
应 用 编程 接口 ,高 可 用 性 等 方面 做 出 了 努力 ,但 对 于 流 数据 的 实时 高 效 处 理 都 面临 如 下 
问题 。 

(1) 可 伸缩 性 ; 

(2) 系统 容错 性 ; 

(3) 状态 一 致 性 ; 

(4) 负载 均衡 ; 

(5) 数据 吞吐 量 。 


15.1 流 计算 模型 


l. 流 计算 系 统 模型 


分 布 式 系统 中 常用 有 向 非 循环 图 (Directed Acyclic Graph,DAG) 来 表征 计算 流程 或 计 
算 模型 。 如 图 15-2 所 示 的 DAG, 就 表示 了 分 布 式 系统 中 的 链 式 任务 组 合 ,图 中 的 不 同 颜色 
节点 表示 不 同 阶段 的 计算 任务 (或 计算 对 象 ) ,而 单 向 © 
箭头 则 表示 了 计算 步骤 的 顺序 和 前 后 依赖 关系 。 x 
基于 上 面 的 有 向 非 循环 图 (DAG) 的 概念 ,目前 有 6-6- 6-9 
两 种 主流 的 流 计算 系统 : Native Stream Processing Ses 
System (图 15-3) 和 Micro-batch Stream Processing O-O O 
System( 图 15-4), Native Stream Processing System ~ 
是 基于 数据 按 其 读 人 顺序 逐条 进行 处 理 , 每 一 条 数据 
到 达 即 可 得 到 即时 处 理 (假设 系统 没有 过 载 ), 系 统 响 。 图 152 有 向 非 循环 向 图 (DAG) 


E) 大 数据 分 析 与 计算 


应 性 好 。Micro-batch Stream Processing System 是 将 数据 流 先 做 预 处 理 ,打包 成 含 多 条 数 
据 的 Batch( 批 次 ) 再 交 给 系统 处 理 。 逐 条 处 理 模式 简便 易 行 ,系统 延迟 性 也 是 最 低 的 ,但 它 
至 少 存在 两 个 问题 : 一 是 系统 吞吐 率 低 ; 二 是 容错 成 本 高 和 容易 负载 不 均衡 。 


Native stream processing systems 
continuous operator model 


@ record Processing Operator 


ource Operator ê eV © e e "^, Operator 


iiid "Ie 


records processed one at a time 


图 15-3 Native Stream Processing System 


Processing Operator 


Receiver Micro-batches P V © ~ 


records ~ A 
“> © L v& 
^ e" s 
Operator 
Records processed in short batches Processing Operator 


图 15-4 Micro-batch Stream Processing System 


我 们 先 用 一 个 Client/Server 系统 的 例子 来 说 明 为 什么 Native Stream Processing System 
比 Micro-batch Stream Processing System 吞吐 率 低 中 。 

系统 否 吐 率 是 指 单 位 时 间 内 系统 处 理 的 数据 量 或 完成 的 任务 数 。 对 于 图 15-5 的 
Client/Server 系统 而 言 ,服务 器 端的 吞吐 率 是 指 服务 器 在 单位 时 间 内 对 所 有 的 客户 端 完 成 
的 任务 数 , 即 这 些 任务 是 来 自 所 有 客户 端 (图 15-5(a)); 客户 端的 吞吐 率 则 是 指 对 单个 客户 
而 言 服务 器 在 单位 时 间 内 完成 的 该 客户 提交 的 任务 数目 (图 15-5(b))。 在 讨论 系统 吞吐 率 
时 ,一般 指 的 是 服务 器 端的 吞吐 率 。 












































Client 
Client Server 
Client Server 
TTTS, Server 
Client TU Throughput Client-Server 
Throughput 
(a) 服务 器 端 吞吐 率 (b) 客户 端 吞吐 率 


图 15-5 Client/Server 系统 的 吞吐 率 
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系统 响应 时 延 则 是 基于 客户 端 来 计算 的 , 它 等 于 客户 端 向 服务 器 端 提交 一 个 任务 到 计 
算 结 果 返 回 之 间 的 时 间 间 隔 。 
假设 客户 端 一 个 任务 完成 的 时 间 可 分 为 如 图 15-6 所 示 的 三 部 分 : 
Delay Time — Network Latency 十 Server Latency 十 Network Latency 
— 2XNetwork Latency 十 Server Latency 


其 中 ,Network Latency 是 网 络 传输 时 间 , 以 工 , K 
































示 ; Server Latency 是 服务 器 处 理 一 条 数据 所 需 时 | Clem 
间 , 以 工 .表示 。 Network Latency 
对 于 Native Stream Processing System 而 言 : 
erver 

客户 端 系统 延迟 : Latency 

Network Latency 
Delay Time = 2L,-- L, 
服务 器 端 系统 吞吐 率 : 
Throughput = 1/(Delay Time) E 15-6 Client/Server 系统 响应 时 间 
= 1/2L,+ L.) 





如 果 我 们 采用 一 次 把 10 条 数据 打 成 一 个 包 发 送 处 理 的 方式 ,网 络 传输 时 间 不 变 ,仍然 
为 2XNetwork Latency, 但 服务 器 处 理 时 间 变 为 10 X Server Latency, 因 为 需要 处 理 10 条 
数据 。 

对 于 这 种 Micro-batch Processing System 而 言 : 
客户 端 系统 延迟 : 

Delay Time = 2L,-- 10L, 
服务 器 端 系统 吞吐 率 : 
Throughput — 10/(Delay Time) I0/ (2D: E1015 1/0721, F E 
比较 两 种 模式 的 Delay Time 和 Throughput 可 知 , 只 要 L, >0 M L, >0, WA: 
2 
1/QL, + L,) < 1/(0. 2L, + L,) 

由 此 可 知 ,两 种 模式 比较 ,Native Stream Processing System 的 时 间 延 迟 性 好 于 Micro- 
batch Stream Processing System. 但 系统 吞吐 率 则 低 于 Micro-batch Stream Processing 
System。 另 外 ,Native Stream Processing System 容错 性 成 本 也 较 高 ,因为 逐条 数据 备份 或 
恢复 的 开销 大 于 成 批 次 的 处 理 成 本 。 

Micro-batch 的 工作 原理 可 以 以 Spark? 为 例 来 说 明 , Spark 也 提供 Micro-batch 
Stream Processing System 类 型 的 流 数 据 处 理 功能 。 如 图 15-7 所 示 ,Spark 首先 以 2s 为 单 
位 (Batch Length. = 2s) 将 基于 时 间 轴 的 流入 数据 转换 成 一 系列 的 RDD (Resilient 
Distributed Datasets ,弹性 分 布 式 数据 集 )529 。RDD 是 一 个 有 容错 机 制 的 分 布 式 数据 集 ， 
也 是 对 连续 数据 流 的 一 种 划分 (Partition) 方 式 。 如 果 说 MapReduce 批 处 理 模型 对 大 数据 
集 的 划分 方式 是 基于 RowKey 将 大 数据 表 划 分 成 一 个 个 Partitions, 那 么 流 计算 模型 就 是 基 
于 时 间 单 位 (图 15-7 中 为 2s) 将 连续 数据 流 划分 成 一 个 个 的 RDD。 在 Spark 的 设计 中 ， 
RDD 有 如 下 两 个 重要 含义 。 

(D. RDD 的 底层 存储 (内 存 或 磁盘 ) 依 赖 于 Hadoop/ HDFS 的 分 布 式 架构 。 

图 15-8 是 Spark 的 RDD 存储 架构 ,一 个 RDD 可 以 包含 多 个 数据 分 区 (Partition) ,而 
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Batch Length: 2 seconds, Window Length: 6 seconds,Slide Interval: 4 seconds 
图 15-7 数据 流转 换 成 Micro-batch(RDD) 


一 个 Partition 对 应 着 物理 存储 层 Hadoop/HDFS 的 一 个 Block。 容 错 考虑 ,一 个 Block 有 
多 个 Copy 分 散 存 储 在 集群 节点 上 ,因此 一 个 RDD 实际 上 也 是 多 个 Copy 分 布 存储 在 
Driver/Executor 架构 中 (Driver 可 看 作 是 主 节点 ,Executor 是 从 节点 )。 其 中 ,每 个 Executor 会 
启动 一 个 BlockManagerSlave, 并 管理 一 部 分 Block; 而 Block 的 元 数据 由 Driver 节点 的 
BlockManagerMaster 保存 。BlockManagerSlave 生成 Block 后 向 BlockManagerMaster it 
册 该 Block. BlockManagerMaster 管理 RDD 与 Block 的 关系 , 当 RDD 不 再 需要 存储 的 时 
候 ,将 向 BlockManagerSlave 发 送 指令 删除 相应 的 Block, 


Driver | RDD 


Executor | BlockManager! 'BlockManager! — 'BlockManager! 


i 
| Slave — ! | — slave  ! !___ slave — ' 


图 15-8 Spark 的 RDD 存储 架构 


(2) 提供 了 对 RDD 进行 操作 的 编程 接口 ,支持 基于 RDD 的 并 行 计算 。 
RDD 的 Action 类 型 和 Transformation 类 型 的 编程 接口 分 别 见 表 15-1 MÆ 15-2。 
表 15-1 RDD 编程 接口 一 一 Action 类 型 

类 型 说 明 
通过 函数 func 聚集 数据 集中 的 所 有 元 素 。func 函数 接收 两 个 参数 ,返回 
一 个 值 。 这 个 函数 必须 是 关联 性 的 ,确保 可 以 被 正确 地 并 发 执行 
在 Driver 的 程序 中 ,以 数组 的 形式 返回 数据 集 的 所 有 元 素 。 这 通常 会 在 
collect() 使 用 filter 或 者 其 他 操作 后 ,返回 一 个 足够 小 的 数据 子 集 再 使 用 ,直接 将 
整个 RDD 集 Collect 返回 ,很 可 能 会 让 Driver 程序 OOM 
count() 返回 数据 集 的 元 素 个 数 
返回 一 个 数组 ,由 数据 集 的 前 ?个 元 素 组 成 。 注 意 , 这 个 操作 目前 并 非 在 
take(n) 多 个 节点 上 并 行 执行 ,而 是 Driver 程序 所 在 机 器 ,单机 计算 所 有 的 元 素 
(Gateway 的 内 存 压 力 会 增 大 ,需要 谨慎 使 用 ) 





reduce(func) 

















firstO. 
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续 表 
Om 
返回 数据 集 的 第 一 个 元 素 (类 似 于 take(1)) 





saveAsTextFile( path) 


将 数据 集 的 元 素 , 以 TextFile 的 形式 保存 到 本 地 文件 系统 .HDFS 或 者 任 
何其 他 Hadoop 支持 的 文件 系统 。Spark 将 会 调用 每 个 元 素 的 toString 
方法 ,并 将 它 转换 为 文件 中 的 一 行文 本 





saveAsSequenceFile( path) 


将 数据 集 的 元 素 , 以 SequenceFile 的 格式 ,保存 到 指定 的 目录 下 ,本 地 系 
St HDFS 或 者 任何 其 他 Hadoop 支持 的 文件 系统 。RDD 的 元 素 必须 由 
Key-Value 对 组 成 ,并 都 实现 了 Hadoop 的 Writable 接口 ,或 隐 式 可 以 转 
换 为 Writable(Spark 包括 基本 类 型 的 转换 ,例如 Int、Double、String 等 ) 





foreach(func) 





在 数据 集 的 每 一 个 元 素 上 运行 函数 func。 这 通常 用 于 更 新 一 个 累加 器 变 
量 , 或 者 和 外 部 存储 系统 做 交互 














表 15-2 RDD 编程 接口 一 一 Transformation 类 型 
类 型 说 明 

map(func) 返回 一 个 新 的 分 布 式 数 据 集 ,由 每 个 原 元 素 经 过 func 函数 转换 后 组 成 
filter(func) 返回 一 个 新 的 数据 集 ,由 经 过 func 函数 后 返回 值 为 true 的 原 元 素 组 成 
flatMapCfunc) 类 似 于 map, 但 是 每 一 个 输入 元 素 会 被 映射 为 0 到 多 个 输出 元 素 ( 因 此 ， 

func 函数 的 返回 值 是 一 个 Seq, 而 不 是 单一 元 素 ) 

类 似 于 map, 但 是 每 一 个 输入 元 素 会 被 映射 为 0 到 多 个 输出 元 素 ( 因 此 ， 
flatMap(func) 


func 函数 的 返回 值 是 一 个 Seq, 而 不 是 单一 元 素 ) 





sample ( withReplacement, frac, 


seed) 


根据 给 定 的 随机 种 子 seed, 随 机 抽样 出 数量 为 frac 的 数据 





unionCotherDataset) 


返回 一 个 新 的 数据 集 , 由 原 数据 集 和 参数 联合 而 成 





groupByKey([numTasks]) 


在 一 个 由 (K,V) 对 组 成 的 数据 集 上 调用 ,返回 一 个 (K,SeqLV]) 对 的 数 
据 集 。 注 意 : 默认 情况 下 ,使 用 8 个 并 行 任 务 进行 分 组 ,可 以 传人 
numTask 可 选 参数 ,根据 数据 量 设置 不 同 数目 的 Task 





reduceByKey(func, [numTasks ]) 


在 一 个 (K,V) 对 的 数据 集 上 使 用 ,返回 一 个 (K,V) 对 的 数据 集 ,Key A 
同 的 值 ,都 被 使 用 指定 的 Reduce 函数 聚合 到 一 起 。 和 groupByKey 类 
似 , 任 务 的 个 数 是 可 以 通过 第 二 个 可 选 参数 来 配置 的 





join(otherDataset,[numTasks]) 


在 类 型 为 (K,V) 和 (K,W) 的 数据 集 上 调用 ,返回 一 个 (K,(V,W)) 对 ,每 
个 Key 中 的 所 有 元 素 都 在 一 起 的 数据 集 





groupWith(otherDataset, 
[numTasks]) 


在 类 型 为 (K,V) 和 (K,W) 的 数据 集 上 调用 ,返回 一 个 数据 集 , 组 成 元 素 
为 (K,SeqLV],SeqLW]) Tuples。 这 个 操作 在 其 他 框架 中 称 为 CoGroup 





cartesian(otherDataset) 


笛 卡 儿 积 。 但 在 数据 集 T 和 UU 上 调用 时 ,返回 一 个 (T,U) 对 数据 集 , 所 
有 元 素 交 互 进行 笛 卡 儿 积 





flatMap(func) 


类 似 于 map, 但 是 每 一 个 输入 元 素 会 被 映射 为 0 到 多 个 输出 元 素 ( 因 此 ， 
func 函数 的 返回 值 是 一 个 Seq, 而 不 是 单一 元 素 ) 








2. 流 并 行 计算 实现 


在 理解 了 上 述 的 Native Stream Processing 和 Micro-batch Stream Processing 两 种 流 
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数据 处 理 模式 后 ,下 面 讨论 三 种 流 计算 系统 的 并 行 计算 模型 。 

1) Storm 的 Topoloy 模型 

Twitter 的 Storm 仍然 是 一 种 Native Stream Processing System, 即 对 流 数 据 的 处 理 是 
基于 每 条 数据 进行 ,其 并 行 计算 是 基于 由 Spout( 数 据 源 ) 和 Bolt( 处 理 节点 ) 组 成 的 有 向 拓 
扑 图 Topology 来 实现 的 ,如 图 15-9 所 示 。 这 里 , 流 数据 是 以 Tuple( 基 本 数据 单元 ,可 看 作 
一 组 各 种 类 型 的 值 域 组 成 的 多 元 组 ) 的 形式 在 Spout 与 Bolt 之 间 流 转 。Spout 负责 将 输入 
数据 流转 换 成 一 个 个 Tuples ,发送 给 Bolt 处 理 。 每 个 Bolt 读 取 上 游 传 来 的 Tuples, 向 下 游 
发 送 处 理 后 的 Tuples。 

Storm 的 Topology 实际 上 定义 了 并 行 计算 的 逻辑 模型 (或 者 称 抽象 模型 ) ,也 即 从 功能 
和 架构 的 角度 设计 了 并 行 计算 的 步 又 和 流程 。 

但 这 种 逻辑 模型 需要 通过 图 15-9 左边 的 系统 架构 (也 可 称 物理 模型 ) 来 实现 。 真 正 的 
Storm 计算 体系 也 采用 主 / 从 (Master/Slave) 架 构 , 负 责任 务 分 发 和 资源 调度 的 Nimbus f 
序 运行 在 主 节点 上 , 它 通 过 Hadoop 平台 的 ZooKeeper 管理 一 组 运行 在 从 节点 Worker 的 
Supervisor 进程 (每 个 Worker 上 运行 一 个 Supervisor) . Supervisor 会 监听 分 配给 它 那 台 
Worker 的 工作 ,根据 需要 启动 /关闭 若干 个 Executor, 而 每 个 Executor 又 执行 若干 计算 任 
务 Task。 


ZooKeeper 图 ZooKeeper | -a eg 


kor 














Supervisor Supervisor Em 


Worker Worker is 
Executor (eo Executor 

Tuples 
[Task Task Task| Task - 


图 15-9 Storm 的 并 行 计算 模型 
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当 一 个 Storm 作业 被 提交 时 ,同时 需要 提交 预先 设计 的 Topology( 包 含 Spout 和 Bolt 
的 信息 )。 由 于 Topology 里 的 Spout 和 Bolt 的 功能 最 终 是 靠 Worker 节点 上 的 Task 来 实 
现 的 ,而 且 一 个 Spout 或 Bolt 的 任务 需要 分 布 在 不 同 Worker 上 的 多 个 Task 来 并 行 完 成 ， 
这 就 还 需要 确定 每 个 Spout 和 Bolt 需要 多 少 个 Task 来 支撑 ,以 及 如 何 把 一 个 Spout 或 
Bolt 映射 到 多 个 Worker 节点 的 Task 上 去 ,如 图 15-10 所 示 。 从 图 中 可 看 到 ,该 Topology 
包含 三 个 逻辑 组 件 : 蓝 色 Spout, 绿 色 Bolt, 黄 色 Bolt。 经 过 计算 确定 需要 的 Task 数 分 别 为 
2、4、6, 总 共 需 要 12 个 Task 线程 ,于 是 在 左边 的 两 个 Worker 上 各 自生 成 6 个 Task 线程 ， 
并 把 这 总 共 12 个 Task 线程 对 应 分 配给 了 右边 的 三 个 逻辑 组 件 (颜色 一 一 对 应 ) 
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图 15-10 Topology 到 Task 的 映射 


2) Spark 的 DStream 模型 

Spark 流 计算 的 核心 概念 是 Discretized Stream(DStream) 。 如 图 15-11 所 示 ,DStream 
由 一 组 RDD 组 成 ,每 个 RDD 都 包含 规定 时 间 段 (可 设置 ) 流 入 的 数据 ,图 中 每 个 RDD 都 包 
含 1s 的 数据 (Spark Streaming 中 Batch 最 小 长 度 可 以 设置 为 0. 5s) 。Spark Streaming 的 
计算 分 析 可 以 基于 单个 RDD, 也 可 以 基于 DStream 上 的 滑动 window, 即 通过 移动 一 个 固定 
长 度 的 window 来 读 取 DStream 的 某 一 段 RDDs。 图 中 ,RDD length = 1s( 即 一 个 RDD 包 


A ls 数据 ) ,window length = 2 RDDs。 
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图 15-11 Spark 的 并 行 计算 模型 
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Spark 的 计算 程序 分 为 Driver (运行 在 Master 节点 上 ,也 有 一 种 模式 运行 在 某 一 
Worker 节点 上 ) 和 Executor( 运 行 在 Worker 节点 上 ) 两 部 分 ,如 图 15-12 所 示 。Driver 与 
Hadoop 集群 的 管理 程序 如 Mesos"? , YARNP'? 进行 对 接 , 负 责 把 应 用 程序 的 计算 任务 转 
化 成 有 向 非 循 环 图 (DAG) ,而 Executor 则 负责 完成 Worker 节点 上 的 计算 和 数据 存储 。 
Spark Streaming 的 并 行 处 理 是 基于 DStream 设计 的 。 各 个 Worker 节点 上 的 Executor 计 
算是 基于 DStream 进行 的 ,DStream 所 包含 的 RDD 在 进行 分 区 (Partition) 后 分 发 给 各 个 
Executor, 针 对 一 个 个 数据 Partition 再 由 Executor 生成 一 个 个 Task 线程 ,这 些 Task 线程 
在 Worker 节点 上 并 行 运行 完成 计算 任务 。 
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Æ 15-12 Spark 计算 体系 


由 于 Spark 将 RDD 划分 为 更 小 尺度 的 分 区 ,因此 可 对 资源 进行 细 粒 度 分 配 。 例 如 , 输 
入 DStream 需要 按键 值 来 进行 处 理 , 传 统 处 理 系 统 会 把 属于 一 个 RDD 的 所 有 分 区 分 配 到 
一 个 Worker Node( 图 15-13 左边 所 示 ) ,如果 一 个 RDD 的 计算 量 比 别 的 RDD 大 许多 ,就 会 
造成 该 节点 成 为 性 能 瓶颈 。 而 在 Spark Streaming 中 ,属于 一 个 RDD 的 分 区 会 根据 节点 荷 
载 状 态 动 态 地 平衡 分 配 到 不 同 节点 上 (图 15-13 右边 ) ,一 些 节点 会 处 理 数量 少 但 耗 时 长 的 
Tasks, 男 一 些 节点 处 理 数 量 多 但 耗 时 短 的 Tasks, 使 得 整个 系统 负载 更 均衡 。 
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图 15-13 Spark 的 任务 分 发 


3) Samza 的 Partitioned Stream 模型 
Samza'? f tli LinkedInc9 开 源 的 一 个 分 布 式 流 处 理 系统 ,与 之 配合 使 用 的 是 Apache 
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开源 分 布 式 消息 处 理 系统 Kafka? ,采用 YARN KEHA E Ub BE aS [8 B3. c e VERE UR E 
理 等 功能 。Samza 也 是 一 种 基于 逐条 消息 处 理 的 Native Stream Processing System, 强 调 的 
是 对 数据 流 的 低 延 迟 快速 处 理 , 但 与 Storm 的 基于 Topology 的 计算 模式 不 同 ,Samza 的 并 
行 计算 是 基于 Kafka 提供 的 分 区 数据 流 (Partitioned Stream) ,如 图 15-14 右边 所 示 。 
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图 15-14 Samza 的 并 行 计算 模型 


Samza 处 理 的 消息 可 以 是 Byte 数组 ,也 可 以 是 String 或 Avro 格式 ,每 个 消息 有 一 个 
ID。 在 数据 流 输入 端 ,分 布 式 消息 处 理 系统 Kafka 对 Stream 按照 Topic( 比 如 Web 页 面 点 
击 记录 、 系 统 日 志 syslog 文件 等 ) 进 行 分 类 , 即 一 个 类 型 的 消息 归 人 一 个 Topic。 在 每 一 个 
Topic 的 内 部 ,Stream 又 按照 消息 的 Key Value 和 算法 又 划分 为 多 个 Partitions( 分 区 ) ,如 
图 15-14 右边 所 示 。 注 意 这 些 Partitions 有 多 个 复制 版 本 跨 节点 存储 在 集群 上 ,提供 数据 的 
容错 性 。 

分 区 队列 中 的 消息 都 有 一 个 本 分 区 内 的 序列 号 (offset) 作 为 识别 符 。 当 一 个 新 消息 加 
入 分 区 队列 时 , 按 顺序 赋予 一 个 序列 号 并 加 在 队 尾 ,如 图 15-15 所 示 。 






























































分 区 内 一 个 消息 被 读 取 处 理 后 ,Kafka 并 不 Producers 
是 马上 就 把 该 消息 从 队列 中 删除 。Kafka 采用 的 [ve 
方式 是 基于 时 间 段 的 批量 更 新 , 即 如 果 设 置 更 新 "SP 
时 间 间 隔 为 两 天 ,一 条 消息 从 它 加 入 队列 起 两 天 (0 11213121516 17|8]19 o [iii 
之 内 都 有 效 , 可 供 多 个 Consumer 读 取 使 用 ,两 天 本 
后 即 更 新 。 Consumer A Consumer B. 
采用 Stream 分 区 制 至 少 带 来 两 个 好 处 : 一 (offset-9) (ofie 
Æ Partition 不 会 过 大 ,能够 很 好 地 适应 各 个 节点 图 15-15 Kafka 分 区 队列 操作 


的 内 存 空 间 限 制 ; 但 一 个 Topic 包含 多 个 
Partitions, 因 此 对 Topic 包含 的 消息 数量 并 没有 太 大 局 限 。 二 是 Samza 的 后 续 处 理 可 以 基 
于 分 区 (Partition) 很 方便 地 实现 并 行 化 。 

一 个 Samza 作业 (Job) 的 分 区 数目 确定 后 ,会 生成 相应 数目 的 Task ,每 个 Task 线程 从 
其 对 应 的 分 区 读 取 数 据 进行 处 理 。 如 图 15-14 左边 所 示 , 输 入 Stream 划分 成 三 个 
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Partitions ,形成 三 个 分 区 队列 ,Samza 通过 YARN 调度 器 配置 资源 ,相应 地 生成 三 个 Task 
线程 (可 能 分 布 在 不 同 Worker 节点 上 ) ,这 样 实现 了 多 个 Task 线程 对 一 个 Job 多 个 分 区 
的 并 行 处 理 。 如 果 一 个 节点 发 生 故 障 ,YARN 会 在 另外 的 节点 启动 对 应 的 Task 线程 , 继 
续 处 理 原来 分 配 的 分 区 直到 完成 。Task 对 分 区 队列 消息 的 处 理 顺序 是 依照 它们 的 分 区 
内 的 顺序 号 (offset) ,但 不 同 分 区 之 间 没 有 依赖 关系 ,因此 多 个 Tasks 可 实现 并 行 处 理 
模式 。 

3. Samza 状态 维护 机 制 

只 有 非常 简单 的 流 计 算 问 题 才 是 无 状态 的 (Stateless) ,比如 一 次 处 理 一 条 消息 ,和 其 他 
任何 消息 都 没有 关系 。 但 很 多 流 处 理 作 业 需 要 维护 一 些 任 务 的 状态 信息 (Stateful) ,例如 : 

(1) 如 果 需 要 知道 每 个 User ID 每 个 小 时 内 有 多 少 次 网 页 浏览 ,就 需要 为 每 个 User 维 
持 一 个 计数 器 ; 

(2) 如 果 想 要 知道 每 天 有 多 少 不 同 的 用 户 访问 了 网 站 ,需要 保持 一 个 User ID 的 集合 ， 
这 个 集合 里 的 User ID 今天 至 少 有 一 次 网 页 浏览 ; 

(3) 如 果 需 要 对 两 个 数据 流 做 Join 操作 ,比如 需要 知道 在 线 广告 的 点 击 率 , 就 需要 把 广 
告 的 展示 流 和 广告 的 点 击 流 做 一 个 Join 操作 ,这 就 需要 存储 一 个 流 的 消息 直到 收 到 另 一 个 
流 的 相关 消息 。 

传统 的 任务 状态 维护 方式 有 两 种 : 一 是 把 某 些 状态 参数 (比如 计数 器 ) 保 存在 任务 的 内 
存 中 ,但 是 如 果 这 个 任务 失效 了 或 重启 了 ,这 些 状 态 数据 可 能 就 丢失 了 ; 二 是 把 本 地 任务 
的 状态 参数 持久 化 存储 到 远 端 数据 库 里 ,但 如 果 每 处 理 一 条 消息 都 需要 一 次 远程 数据 库 
查询 ,会 导致 性 能 大 大 下 降 无 法 接受 。 比 如 Kafka 信息 队列 可 以 在 每 个 节点 上 的 消息 处 
理 速度 达到 (10 一 50) 万 条 / 秒 , 但 是 查询 一 个 远 端 的 键 值 数 据 库 的 速度 可 能 只 有 (1 一 5) 千 
个 请 求 / 秒 ,性 能 相差 极 大 。 另 外 ,外 围 数据 库存 储 方案 还 会 带 来 数据 同步 .容错 机 制 等 一 系 
列 问题 。 

为 此 ,Samza 设计 了 如 图 15-14 左边 所 示 的 本 地 存储 机 制 , 包 括 如 下 要 点 。 

CD 每 个 Task 的 状态 参数 存储 在 本 地 磁盘 上 ,这 样 就 不 会 受到 内 存 空 间 有 限 的 局 限 ， 
而 且 是 存在 与 Task 同一 台 机 器 上 ,消除 了 远程 访问 可 能 带 来 的 问题 。 

(2) 每 一 个 Task 在 本 地 磁盘 上 有 一 个 自己 的 存储 结构 , 互 不 干扰 。 这 个 存储 结构 仍然 
以 分 区 队列 的 形式 实现 ,每 个 Task 有 一 个 自己 的 分 区 队列 。 

CD 对 状态 参数 的 备份 是 连续 的 ,避免 了 容错 机 制 中 设置 CheckPoint 的 问题 。 

(4) Samza 还 提供 了 多 种 存储 引擎 的 插件 机 制 , 使 得 支持 各 种 数据 引擎 查询 的 能 力 
更 强 。 

(5) 当 一 个 节点 失效 时 ,存储 在 该 节点 磁盘 上 的 状态 参数 也 会 丢失 。 为 了 解决 这 个 问 
题 ,Samza 通过 Kafka 提供 了 一 个 永久 性 数据 库 来 备份 所 有 Task 的 状态 数据 , 即 图 15-14 
中 的 Changelog Stream, 这 个 备份 数据 库 仍然 是 按 分 区 (也 就 是 按 Task) 来 保存 状态 数据 
的 。 一 个 节点 失效 后 ,Samza 很 容易 就 使 用 Changelog 保存 的 数据 在 另 一 个 节点 上 启动 原 
来 的 那些 Tasks ,提供 了 可 靠 的 容错 机 制 。 

本 节 中 主要 讨论 了 流 计算 的 三 种 代表 性 体系 (Storm,Spark,Samza) 的 系统 架构 并行 
计算 模型 及 其 实现 方式 , 现 将 其 要 点 总 结 于 表 15-3。 





表 15-3 





三 种 流 计 算 系统 对 比 
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数据 模型 “|Tuple( 多 元 组 ) DStream(RDD 组 成 的 离散 流 ) | 单条 消息 
数据 源 Spout Spark Streaming Kafka Consumer 
处 理 单元 Bolt Task Task 
并 行 模式 基于 Topology 的 多 节点 多 任 基于 RDD 多 节点 多 任务 并 行 基于 分 区 队列 的 多 节点 多 
务 并 行 模式 模式 任务 并 行 模式 
Stateful Stateful 
状态 维护 Pe SUE FO UU Spark Streaming 提供 状态 维 | 通过 本 地 存储 和 Kafka 
us 护 API Changelog 来 实现 
响应 延迟 毫秒 级 秒 级 (取决 于 Batch 设置 大 小 ) | 毫秒 级 
编程 语言 Jae: Pythons Ruby, Java, Python, Scala Java, Scala 








JavaScript, Perl 








15.2 Storm 计算 架构 


本 节 讨 论 分 布 式 实时 流 计 算 平 台 Storm 的 计算 架构 .工作 原理 及 实现 方法 ,包括 Storm 
的 容错 机 制 、 负 载 均 衡 及 状态 维护 等 内 容 。 作 为 一 个 流 计 算 框架 ,Storm 具备 如 下 特点 。 

(1) 分 布 式 : 具有 水 平 扩展 能 力 (通过 增加 集群 机 器 和 并 发 数 提升 计算 能 力 ) 。 

(2) 实时 性 : 对 流 数据 的 快速 响应 处 理 , 响 应 时 延 可 控制 在 毫秒 级 。 

CD 数据 规模 : 支持 海量 数据 处 理 , 数 据 规 模 可 达 TB 甚至 PB 量 级 。 

(4) 容错 性 : 提供 系统 级 的 容错 和 故障 恢复 机 制 。 


(5) 简便 性 : 简单 的 编程 模型 ,支持 编程 语言 如 Java, Clojure, Ruby, Python, 


其 他 语言 的 支持 ,只 需 实 现 一 个 简单 的 Storm 通信 协议 即 可 。 
Storm 支持 如 下 三 种 应 用 模式 。 
(1) DRPC(Distributed RPC) 一 一 同步 调用 . 
由 于 Storm 系统 是 分 布 式 架 构 , 且 处 理 延 迟 极 低 , 所 以 可 以 将 Storm 作为 一 个 分 布 式 
RPC 框架 来 使 用 ,比如 支持 实时 网 页 统计 处 理 、 实 时 图 像 处 理 等 应 用 。 如 图 15-16 所 示 ， 
Storm 可 作为 一 个 DRPC Server 支持 同步 调用 , 即 客户 端 Client 向 DRPC 服务 器 端 发 出 图 
片 数 据 服务 请 求 后 ,就 进入 等 待 状态 直到 服务 器 端 返回 结果 。 
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图 15- 


异步 调用 。 


16 Storm 的 同步 调用 


对 数据 流 的 逐条 计算 、 分 析 、 聚 合 等 处 理 , 支 持 并 行 处 理 模式 。 这 类 应 用 有 日 志 数 据 统 
计 (pv/uv) 、 用 户 行为 实时 分 析 , 个 性 化 推荐 系统 等 。 如 图 15-17 所 示 为 Storm 作为 日 志 乡 
计 应 用 提供 异步 调用 的 例子 , 即 客户 端 (Client) 发 送 日 志 数 据 流 给 Storm 平台 处 理 , 但 并 不 
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堵塞 于 这 个 步骤 等 待 Storm 返回 处 理 结果 ,而 是 执行 Client 的 下 一 步 程 序 。 当 结果 返回 
时 ,Client 有 子 线程 负责 接收 返回 结果 。 
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图 15-17 Storm 的 异步 调用 


(3) 连续 计算 。 

Storm 可 以 进行 对 数据 流 的 连续 查询 ,并 在 计算 的 同时 把 结果 以 数据 流 的 形式 实时 反 
馈 给 客户 ,比如 将 Twitter 上 的 热门 话题 发 送 到 客户 端 。 

1. Storm 逻辑 架构 

Storm 的 计算 架构 分 为 逻辑 架构 (抽象 模型 ) 与 物理 架构 (系统 结构 ) 两 个 方面 。 逻 辑 架 
构 主 要 包含 以 下 组 件 。 

1) 多 元 组 Tuple 

Tuple 是 由 一 组 各 种 类 型 的 值 域 组 成 的 多 元 组 ,所 有 的 基本 类 型 .字符 串 以 及 字 节 数组 
都 作为 Tuple 的 值 域 类 型 ,也 可 以 使 用 用 户 自 己 定 义 的 类 型 , 它 是 Storm 的 基本 数据 单元 ， 
如 图 15-18 所 示 。 


[CC TNNT TNN 
图 15-18 Tuple 格式 


2) 数据 流 Stream 
Stream 是 一 个 不 间断 的 无 界 的 连续 Tuple 序列 ,是 Storm 对 流 数据 的 抽象 ,如 图 15-19 
BER o 


15-19 Stream 组 成 





3) 数据 源 Spout 
Storm 认为 每 个 Stream 都 有 一 个 源头 , 它 将 这 个 源头 抽象 为 Spout。Spout 组 件 负责 
将 外 部 输入 数据 流转 换 成 Tuple 序列 ,如 图 15-20 所 示 。 


> 





图 15-20 数据 源 Spout 
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4) 处 理 单 元 Bolt 


Storm 的 中 间 处 理 单元 ,Bolt 将 所 有 的 消息 处 理 逻 辑 都 封装 在 执行 程序 里 面 , 可 执行 过 
滤 、 聚 合 ,查询 数据 库 等 操作 , 它 接 收 输入 的 Tuple 流 并 产生 输出 的 新 Tuple 流 , 如 图 15-21 
所 示 。Bolt 中 最 重要 的 函数 是 execute() ,以 接收 的 Tuple 作为 函数 参数 。 


re | KCN CI IC 
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图 15-21 处 理 单元 Bolt 


5) 消息 分 发 策略 Stream Grouping 
Tuple 序列 从 上 游 Bolt 到 某 个 下 游 Bolt 的 多 个 并 发 Task 的 分 组 分 发 方式 ,如 图 15-22 
所 示 。Storm 支持 如 下 的 分 发 策略 。 
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图 15-22 分 发 策略 Stream Grouping 


(1) Shuffle Grouping :随机 分 组 。 基 于 负载 均衡 原则 随机 分 发 Stream 里 面 的 Tuples， 
保证 每 个 Bolt 接收 到 的 Tuple 数目 基本 相同 。 

(2) Fields Grouping: 按 字段 分 组 。 比 如 按 UserID 来 分 组 ,具有 同样 UserID 的 
Tuples 会 被 分 到 相同 的 Bolts. Mi UserID 不 同 的 则 会 被 分 配 到 不 同 的 Bolts. 

(3) All Grouping: 广播 发 送 。 对 于 每 一 个 Tuple, 所 有 的 Bolts 都 会 收 到 一 份 Copy. 

(4) Global Grouping: 全 局 分 组 。 总 是 把 Tuple 分 配 到 Bolt 中 ID 值 最 小 的 那个 Task 。 

(5) Non-Grouping: 不 分 组 。 意 思 是 说 Stream 不 关心 到 底 谁 会 收 到 它 的 tuple。 目 前 
看 和 Shuffle Grouping 是 一 样 的 效果 。 有 点 儿 不 同 的 是 Storm 会 把 这 个 Tuple 放 到 这 个 
Bolt 的 订阅 者 同一 个 线程 去 执行 。 

(6) Direct Grouping: 直接 分 组 。 这 是 一 种 比较 特别 的 分 组 方法 ,用 这 种 分 组 意味 着 消 
息 的 发 送 者 只 准许 由 消息 接收 者 的 Task 处 理 这 个 消息 。 只 有 被 声明 为 Direct Stream 的 消 
息 流 可 以 使 用 这 种 分 发 方法 。 
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6) 逻辑 视图 Topology 

Topology 是 一 个 由 Spout 源 、Bolt 节点 、Tuple jii, Stream Grouping 分 发 方式 组 成 的 
一 个 有 向 图 (DAG) ,代表 了 一 个 Storm 作业 (Job) 的 逻辑 架构 ,如 图 15-23 所 示 。Topology 
不 仅 包含 Spout, Bolt 这 些 功 能 组 件 (DAG 图 中 的 节点 ), 其 中 的 有 向 边 (Directed Edge) 还 
表示 了 它 代 表 的 Stream 被 哪些 Bolt 订阅 , 当 上 游 的 Spout 或 Bolt 发 送 这 个 Stream 的 
Tuples 时 ,这 些 Tuples 就 会 送 到 订阅 的 Bolt 去 处 理 。 

如 果 说 Storm 对 数据 的 处 理 逻 辑 与 算法 封装 在 Bolt 里 ,那么 一 个 Storm 作业 的 计算 流 
程 就 封装 在 Topology 里 。 因 此 ,一 个 设计 好 的 Topology 可 以 提交 到 Storm 集群 去 执行 。 
Topology 的 定义 可 使 用 Thrift,Nimbus 本 身 就 是 一 个 Thrift 服务 ,通过 Thrift 可 以 定义 和 
提交 任何 语言 创建 的 Topology。 

Topology 只 是 一 个 Storm 作业 流程 的 逻辑 设计 ,真正 要 实现 这 个 逻辑 设计 ,还 需要 
Storm 的 系统 架构 或 物理 模型 来 支撑 。 这 就 涉及 如 何在 Hadoop 平台 上 部 署 Storm 的 软件 
组 件 ; 如 何 将 Topology 定义 的 逻辑 组 件 映射 到 物理 节点 上 运行 的 进程 或 线程 ,实现 多 任务 
并 行 处 理 ; 如 何 提供 系统 容错 和 故障 恢复 功能 。 

2. Storm 系统 架构 

Storm 的 计算 体系 也 采用 了 主 / 从 (Master/Slave) 架构 ,主要 有 两 类 节点 : EWA 
Master 和 工作 节点 Slaves, 如 图 15-24 所 示 。 主 节点 上 运行 一 个 叫 作 Nimbus 的 守护 进程 ， 
类 似 于 Hadoop 的 JobTracker. 负责 集群 的 任务 分 发 和 故障 监测 。Nimbus 通过 一 组 
ZooKeeper 管理 众多 的 工作 节点 。 每 个 工作 节点 运行 一 个 叫 作 Supervisor 的 守护 进程 , 监 
听 本 地 节点 状态 ,根据 Nimbus 的 指令 在 必要 时 启动 和 关闭 本 节点 的 工作 进程 。 
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图 15-23 Topology 视图 图 15-24 Storm 计算 架构 


Storm 的 系统 架构 (物理 视图 ) 包 含 如 下 组 件 。 

1) 主 控 程 序 Nimbus 

运行 在 主 节点 上 ,是 整个 流 计算 集群 的 控制 核心 ,总 体 负责 Topology 的 提交 、 运 行 状 
态 监控 ,负载 均衡 及 任务 重新 分 配 等 。Nimbus 分 配 的 任务 包含 Topology 代码 所 在 路 径 
(在 Nimbus 本 地 节点 上 ) 以 及 Worker、Executor 和 Task 的 信息 。 
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2) 集群 调度 器 ZooKeeper 


由 Hadoop 平台 提供 ,是 整个 集群 状态 同步 协调 的 核心 组 件 。Supervisor、Worker、 
Executor 等 组 件 会 定期 向 ZooKeeper 写 心跳 信息 。 当 Topology 出 现 错误 或 者 有 新 的 
Topology 提交 到 集群 时 ,相关 信息 会 同步 到 ZooKeeper。 

3) 工作 节点 控制 程序 Supervisor 

运行 在 工作 节点 ( 称 为 Node) 上 的 控制 程序 ,监听 本 地 机 器 的 状态 ,接受 Nimbus 指令 
管理 本 地 的 Worker 进程 。Nimbus 和 Supervisor 都 具有 fail-fast( 并 发 线程 快速 报错 ) 和 无 
状态 的 特点 。 其 所 有 的 状态 参数 要 么 由 ZooKeeper 维护 ,要 么 放 在 本 地 磁盘 上 ,因此 可 以 
用 kill -9 来 强行 终止 Nimbus 和 Supervisor 进程 ,再 重启 后 它们 可 以 继续 稳定 工作 ,就 好 像 
什么 都 没有 发 生 过 似 的 。 

4) 工作 进程 Worker 

运行 在 Node 上 的 工作 进程 。Worker 由 Node 十 Port 唯一 确定 ,一 个 Node 上 可 以 有 多 个 
Worker 进程 运行 ,一 个 Worker 内 部 可 执行 多 个 Task, Worker 还 负责 与 远程 Node 的 通信 。 

图 15-25 描述 了 Storm 系统 架构 中 Nimbus、ZooKeeper、Supervisor、Worker 等 组 件 的 
角色 。 
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图 15-25 Storm 的 技术 架构 


5) 执行 进程 Executor 

提供 Task 运行 时 的 容器 ,执行 Task 的 处 理 逻 辑 。 一 个 或 多 个 Executor 实例 可 以 运行 
在 一 个 Worker 中 ,一 个 或 多 个 Task 线程 也 可 运行 在 一 个 Executor 中 ,如 图 15-26 所 示 。 
在 Worker 并 行 的 基础 上 ,Executor 可 以 并 行 ,进而 Task 也 能 够 基于 Executor 实现 并 行 
计算 。 

6) 计算 任务 Task 

逻辑 组 件 Spout/ Bolt 在 运行 时 的 实体 ,也 是 Executor 内 并 行 运 行 的 计算 任务 。 一 个 
Spout/Bolt 在 运行 时 可 能 对 应 一 个 或 多 个 Tasks .并行 运 行 在 不 同 节点 上 。Task 数目 可 在 
Topology 中 配置 ,一 旦 设 定 不 能 改变 。 
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前 面 在 介绍 流 计算 并 行 计算 模型 时 已 讲 过 .Strom 逻辑 架构 中 的 Spout 和 Bolt 组 件 的 
功能 实际 上 是 通过 工作 节点 上 的 Task 线程 来 实现 的 。Spout 和 Bolt 均 采用 并 行 模式 , 即 
一 个 Spout 或 Bolt 的 任务 是 由 多 个 Task 线程 来 执行 ,而 Spout 和 Bolt 的 并 行 度 实 际 上 也 
决定 了 它们 所 需要 的 Task 数目 ,如 图 15-26 所 示 。 


每 台 Supervisor 
上 运行 着 若干 个 
Worker 进 程 
















每 个 Worker 进 
程 中 运行 着 若 十 
个 Executor 线 程 





每 个 Executor 线 
程 里 面 运行 着 若 
干 个 相同 的 Task 
(Spout/Bolt) 
图 15-26 工作 节点 并 行 模式 


我 们 在 构建 一 个 Storm 作业 的 Topology 时 ,可 以 设置 Topology 所 包含 的 Spout 和 
Bolt 组 件 ( 也 即 是 DAG 的 节点 ) 的 并 行 度 , 即 Topology 每 个 节点 需要 多 少 个 并 行程 序 来 实 
现 。 并 发 度 的 配置 ,在 Storm 里 面 可 以 在 多 个 地 方 进行 配置 ,优先 级 为 : defaults. yaml < 
storm. yaml < topology-specific configuration < internal component-specific configuration « 
external component-specific configuration, 

Worker 的 数目 ,可 以 通过 配置 文件 和 代码 配置 ，Worker 就 是 执行 进程 ,所 以 考虑 并 发 
的 效果 ,数目 至 少 应 该 大 于 机 器 的 数目 。 下 面 是 将 Worker 数目 设置 为 2 的 例子 。 

Config conf = new Config(); 

conf. setNunWorkers(2); 

Executor 的 并 发 数目 只 能 在 代码 中 配置 (通过 调用 setBolt() 和 setSpout O 25/35) . ffl 
如 ，setBolt ("green-bolt". new GreenBolt(), 2) 将 Green Bolt 的 parallism hint 设置 为 2， 
即 Green Bolt 需要 运行 两 个 Executor。 

Tasks 数目 可 以 不 配置 ,默认 和 Executor 是 1 : 1, 也 可 通过 setNumTasks() 方 法 来 
设置 。 

下 面 以 如 图 15-27 所 示例 子 来 说 明 Storm 如 何 根据 Topology 的 并 行 度 来 计算 Task 数 


目 并 分 发 部 署 到 工作 节点 上 。 这 个 Toplogy 只 包含 
一 个 Spout 和 两 个 Bolts, 假设 运行 在 一 个 
Supervisor 节点 上 。 

首先 计算 Topology 的 并 行 度 : Storm 给 程序 员 — parallelism | | parallelism | | parallelism 
提供 了 设置 Topology 中 各 逻辑 组 件 并 行 度 的 编程 In? Fats Met 
接口 ,在 下 面 的 代码 段 中 Blue Spout, GreenBolt 和 图 15-27 一 个 Toplogy 示例 
Yellow Bolt 的 并 行 度 分 别 被 设置 为 2,2,6。 (一 个 Spout, 两 个 Bolts) 
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/ Topology 运行 在 工作 节点 上 ,每 个 Supervisor 节点 有 2 个 Worker 进程 

conf. setNunWorkers(2); 

// 设 置 Blue Spout 的 并 行 度 为 2, 则 运行 2 个 Executors, Task 数 默 认为 * 1 

topologyBuilder. setSpout("blue - spout", new BlueSpout(), 2); 

// 设 置 Green Bolt 的 并 行 度 为 2, 则 运行 2 个 Executors, 设置 Task 个 数 为 4 

topologyBuilder. setBolt("green - bolt", new GreenBolt(), 2). setNumTasks(4). shuffleGrouping(" 
blue- spout"); 

// 设 置 Yellow Bolt 并 行 度 为 6, 则 运行 6 个 Executors, Task 数 默 认为 * 1 

topologyBuilder. setBolt (" yellow — bolt", new YellowBolt ( ), 6). shuffleGrouping ( " green 一 
bolt"); 


根据 上 述 Topology 的 并 行 度 设置 ,Storm 可 以 计算 出 所 需 Executor 和 Task 数目 并 把 
它们 映射 到 两 个 Worker E. 

(1) 计算 Task 总 数 : 2X1 二 4 十 6X1=12, 即 总 共 需 要 创建 12 个 Task 线程 。 

(2) 运行 时 Topology 的 并 行 度 = 二 2 十 2 十 6 二 10, 即 需要 10 个 Executors。 现 在 有 两 个 
Workers ,按照 负载 均衡 原则 ,那么 每 个 Worker 上 需要 运行 的 Executor 数目 二 10/2 二 5。 

(3) 现在 需要 建立 12 个 Tasks 到 两 个 Workers 和 10 个 Executors 的 映射 关系 ,即将 
12 个 Tasks 分 配 到 两 个 Workers 的 10 个 Executors 上 去 。 分 配方 式 如 下 : 每 个 Worker 
运行 5 个 Executors; 从 负载 均衡 考虑 ,12 个 Tasks 平均 分 配 到 两 个 Workers 上 ,也 即 每 个 
Worker 运行 6 个 Tasks, 

(4) 出 于 容错 和 灾 备 考虑 ,Storm 尽量 把 属于 同一 组 件 的 Tasks 分 散 到 不 同 Worker 甚 
至 不 同 Supervisor 上 运行 ,因此 本 例 中 每 个 Worker 分 到 的 6 个 Tasks X: 一 个 Blue Task. 
两 个 Green Tasks, 三 个 Yellow Tasks, 现 在 需要 把 这 6 个 Tasks 映射 到 该 Worker 的 5 个 
Executor E. 

(5) 在 同一 Worker 内 ,Storm 内 部 优化 机 制 会 把 同类 型 的 Tasks 尽量 放 到 同一 个 
Executor 中 运行 。 一 个 Blue Task 放 到 一 个 Executor 中 ,占用 了 一 个 Executor; 两 个 
Green Task 可 以 放 到 同一 个 Executor 中 ,又 占用 了 一 个 Executor; 最 后 剩 下 的 5—1—1— 
3 个 Executors, 正 好 分 配给 三 个 Yellow Tasks。 

上 述 Worker/Executor/Task 映射 配置 结果 见 图 15-10。 

尽管 Hadoop/MapReduce 是 一 个 分 布 式 批 处 理 计 算 模型 ,针对 的 是 基于 文件 系统 
(HDFS) 的 大 规模 静态 数据 的 计算 处 理 , 而 Twitter Storm 是 一 个 分 布 式 流 计算 平台 ,采用 
的 是 基于 内 存 存储 的 数据 流 (Tuple 序列 ) 实 时 并 行 处 理 模型 ,两 者 在 计算 时 延 和 应 用 领域 
方面 差异 极 大 ,但 这 两 种 系统 在 计算 架构 设计 方面 有 类 似 之 处 , 表 15-4 对 MapReduce 和 
Storm 所 做 的 对 比 可 以 帮助 我 们 理解 Storm 的 计算 架构 。 从 表 中 可 看 出 ,Nimbus 在 Storm 
集群 中 的 作用 类 似 于 JobTracker 在 MapReduce 集群 的 作用 ,而 Supervisor 则 对 应 于 每 个 
计算 节点 上 的 TaskTracker。MapReduce 作业 以 Job 形式 提交 ,Storm 以 Topology 形式 提 
交 , 但 需 注意 到 ,一 个 MapReduce Job 最 终 会 结束 ,而 一 个 Topology 会 永远 运行 (除非 手动 
Kill), MapReduce 有 Mapper/Reducer 这 组 主要 功能 单元 ,而 Stream 则 有 Spout/Bolt, 不 
过 要 注意 Storm 的 Bolt 单元 不 只 一 级 ,而 是 Spout- Bolt- Bolt ---— Bolt 很 多 级 ,有 点 儿 
类 似 于 ChainMapper/ChainReducer 结构 。MapReduce 有 中 间 处 理 步 又 Shuffle (Sort. 
Combine. Merge) ,Storm 则 有 Spout- Bolt. Bolt- Bolt 的 Task 分 发 步骤 。 
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表 15-4 计算 架构 : MapReduce vs. Storm 
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15.3 工作 机 制 实现 


1. Topology 提交 与 执行 

Storm 作业 Topology 的 提交 过 程 如 图 15-28 所 示 。 在 非 本 地 模式 下 ,客户 端 通过 
Thrift 调用 Nimbus 接口 来 上 传代 码 到 Nimbus 并 启动 提交 操作 。Nimbus 进行 任务 分 配 ， 
并 将 信息 同步 到 ZooKeeper。Supervisor 定期 获取 任务 分 配 信息 ,如 果 Topology 代码 缺 
失 , 会 从 Nimbus 下 载 代码 ,并 根据 任务 分 配 信息 同步 Worker。Worker 根据 分 配 的 Tasks 
信息 ,启动 多 个 Executor 线程 ,同时 实例 化 Spout、Bolt、Acker 等 组 件 , 待 所 有 Connections 
(Worker 和 其 他 机 器 通信 的 网 络 连接 ) 启 动 完毕 ,此 Storm 系统 即 进入 工作 状态 。Storm 的 
运行 有 两 种 模式 :本 地 模式 和 分 布 式 模式 。 


上 传 
代码 
Thrift 
提交 Topology 


开启 Executor 线 程 
实例 化 Spout/Bolt 


Executor 


图 15-28 Topology 提交 执行 过 程 
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1) 本 地 模式 


Storm 用 一 个 进程 里 面 的 线程 来 模拟 所 有 的 Spout 和 Bolt。 本 地 模式 只 对 开发 测试 来 
说 有 用 。 

2) 分 布 式 模式 

Storm 以 多 进程 多 线程 模式 运行 在 一 个 集群 上 。 当 提交 Topology 给 Nimbus 的 时 候 ， 
同时 就 提交 了 Topology 的 代码 。Nimbus 负责 分 发 代码 并 且 负 责 给 topolgoy 分 配 工作 进 
程 , 如 果 一 个 工作 进程 挂 掉 ,Nimbus 会 把 它 重新 分 配 到 其 他 节点 。 

2. 消息 发 送 ACK 机 制 

Storm 可 靠 性 要 求 发 出 的 Spout 每 一 个 Tuple 都 会 完成 处 理 过 程 ,其 含义 是 这 个 Tuple 
以 及 由 这 个 Tuple 所 产生 的 所 有 后 续 的 子 Tuples 都 被 成 功 处 理 。 由 于 Storm 是 一 个 实时 
处 理 系 统 , 任 何 一 个 消息 Tuple 和 其 子 Tuples 如 果 没 有 在 设 定 的 Timeout 时 限 内 完成 处 
理 , 那 这 个 消息 就 失败 了 ,因此 Storm 需要 一 种 ACK(Acknowledgement) 机 制 来 保证 每 个 
Tuple 在 规定 时 限 内 得 到 即时 处 理 。 这 个 Timeout 时 限 可 以 通过 Config; TOPOLOGY_ 
MESSAGE_TIMEOUT_SECS 来 设 定 ,Timeout 的 默认 时 长 为 30s。 

Storm 作业 的 每 一 个 Topology 中 都 包含 一 个 Acker 组 件 。Acker 的 任务 就 是 跟踪 从 
Spout 发 出 的 每 一 个 Tuple 及 其 子 Tuples 的 处 理 完成 情况 ,实际 上 Acker 是 以 一 种 特殊 
Task 运行 ,可 以 通过 Config. setNumAckers(Cconf. ackerParaD 设置 Acker Task 的 数目 大 
于 1( 默 认 是 D ,这 样 Acker 是 以 一 种 多 进程 并 行 模式 运行 ; 也 可 以 通过 设置 Acker 数 等 于 
0 或 者 让 Spout 发 出 的 Tuples 不 带 messageID 来 关闭 ACK 机 制 。 

Acker 还 可 用 于 Spout 限 流 作 用 : 为 了 避免 Spout 发 送 数 据 太 快 而 Bolt 来 不 及 处 理 ， 
常常 需 设 置 pending 数值 ,可 通过 如 下 方法 : 

conf.put(Config. TOPOLOGY MAX SPOUT PENDING, pending); 

当 Spout 有 等 于 或 超过 pending 值 的 Tuples 没有 收 到 Ack 9X fail 了 , 则 Spout 跳 过 
nextTuple() 方 法 不 生成 下 一 个 新 Tuple, 从 而 限制 Spout 的 发 送 速 度 。 

3. Tuple Tree 的 构成 

ACK 机 制 首先 要 求 Spout 发 出 的 Tuple 都 带 有 一 个 64b 随机 生成 的 msgId, 这 可 以 通 
过 如 下 的 SpoutOutputCollector 的 emit() 方 法 来 实现 : 


collector. emit(new Values("valuel","value2"), msgId); 


这 些 带 有 msgld 的 Tuples 在 Topology 中 流转 不 同 的 Bolts 时 构成 了 一 个 Tuple 
Tree, 其 构成 方法 基于 Bolt 对 输入 Tuple 和 输出 Tuple 的 如 下 两 个 操作 。 

(1) 当 Bolt 向 下 游 输出 衍生 的 Tuple 时 ,需要 调用 如 下 方法 建立 起 输入 Tuple 和 输出 
Tuple 的 关联 关系 ,这 称 为 锚 定 输入 Tuple: 


collector.emit(in- tuple, new Values(word)); //anchor the in- tuple 
如 果 不 想 与 上 游 传 来 的 Tuple 锚 定 , 则 调用 重 载 方法 : 
collector. emit(new Values(word)); //no anchor 


emit() 建 立 的 Tuple 关联 关系 在 跟踪 这 个 Tuple 的 Acker 那里 会 构成 一 张 DAG, 如 
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图 15-29 所 示 。 而 Acker 会 根据 这 张 Tuple Tree 图 的 最 后 状态 来 判断 这 个 Tuple( 起 源 点 
是 Spout) 是 否 成 功 完成 处 理 。 


['the cow jumped 


over the moon"] 





图 15-29 Tuple Tree 


(2) Bolt 接收 输入 Tuple 进行 处 理 , 处 理 成 功 则 向 Acker 发 送 Ack 确认 ,失败 则 发 送 
fail 报错 。 这 样 Acker 可 以 跟踪 这 张 Tuple Tree 图 里 每 一 个 Tuple 的 完成 状态 。 

以 图 15-30 的 Tuple Tree 为 例 , 输 入 Tuple A 在 Bolt 处 完成 了 处 理 , 并 向 下 游 发 送 了 
两 个 衍生 Tuples B 和 C, 在 Bolt 向 跟踪 的 Acker 报告 了 Ack 后 ,Tuple Tree 就 只 包含 
Tuples B 和 CCTuple A 打 红 X 表 示 它 已 不 在 当前 状态 的 Tuple Tree 中 ) 。 





图 15-30 Tuple Tree 的 更 新 


然后 Tuple C 流转 到 下 一 个 Bolt, 被 处 理 完 后 又 衍生 了 Tuples D 和 E, iX Bolt 向 
Acker 确认 已 处 理 完 Tuple C, FÆ C 被 移出 Tuple Tree', 当 前 状态 的 Tuple Tree 变 成 只 包 
含 B,D,E… 这 一 过 程 将 持续 进行 ,直到 没有 新 的 Tuple 加 入 这 个 Tuple Tree, 而 树 中 所 有 
的 Tuples 都 完成 了 处 理 移 出 了 Tuple Tree。 

4. Acker 算法 

前 面 提 到 ,一 个 Spout 发 出 的 Tuple 的 Tuple Tree 构成 和 更 新 是 由 处 理 该 Tuple 的 各 
个 Bolts 在 流转 过 程 中 完成 ,跟踪 这 个 Tuple 及 其 衍生 Tuples( 它 们 构成 了 Tuple Tree) 的 
Acker 程序 最 终 基 于 以 下 算法 判断 Tuple Tree 是 否 处 理 完毕 ( 即 树 中 所 有 的 节点 都 被 
Acked) ,也 即 判断 该 Tuple 处 理 是 否 结束 。 

(1) 当 Spout 生成 一 个 新 Tuple 时 ,会 向 Acker 发 送 如 下 一 条 信息 通知 Acker 跟踪 : 


{ spout- tuple- id (:spout- task task— id : val ack- val } ) 
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其 中 : 

spout-tuple-id: 这 条 新 Tuple 随机 生成 的 64b ID。 

task-id: 产生 这 条 Tuple 的 Spout ID.Spout 可 能 有 多 个 Task, 每 个 Task 都 会 被 分 配 
一 个 唯一 的 taskId。 

ack-val: Acker 使 用 的 64b 的 校 验 值 ,初始 值 为 0。 

收 到 Spout 发 来 的 初始 Tuple 消息 后 ,Acker 首先 将 ack-val( 此 时 为 0) 与 初始 Tuple 
的 msgId 做 一 个 XORCeXclusive OR) 运 算 ( 表 15-5) ,并 用 结果 更 新 ack-val 值 ; 


ack- val = (ack- val) XOR (spout- tuple- id); 


表 15-5 ”二进制 的 XOR 运算 符 定义 











Operandl 运算 符 Operand2 结果 值 
0 | 0 0 
0 | 1 1 
XOR i 
1 | 0 1 
1 | 1 0 











(2) Bolt 处 理 完 输入 的 Tuple, 若 创建 了 新 的 衍生 Tuples 向 下 游 发 送 ,在 向 Acker 发 送 
消息 确认 输入 Tuple 完成 时 , 它 会 先 把 输入 Tuple 的 msgId 与 所 有 衍生 Tuples 的 msgId 
(也 是 64b 的 全 新 ID) 做 XOR 运算 ,然后 把 结果 tmp-ack-val 包含 在 发 送 的 Ack 消息 中 , 消 
息 格 式 是 


:(spout- tuple- id, tmp- ack- val) 
Acker 收 到 每 个 Bolt 发 来 的 Ack 消息 ,都 会 执行 如 下 运算 
ack- val = (ack- val) XOR (tmp- ack - val); 


所 以 ack-val 所 含 值 总 是 目前 Tuple Tree 中 所 有 Tuples 的 msglId 的 XOR 38 $E ff 

(3) 当 Acker 收 到 一 个 Ack 消息 使 ack-val = 0 时 ,该 条 Tuple 的 处 理 结束 ,因为 

(ack-val) XOR(tmp-ack-val) = 0 意味 着 ack-val 的 值 与 tmp-ack-val 相同 (只 有 两 个 
值 完全 相同 时 XOR 的 运算 结果 才 为 0)。 这 就 意味 着 整个 Tuple Tree 在 规定 时 间 内 
(Timeout) 再 无 新 的 Tuple 产生 ,整个 运算 结束 。 

有 无 可 能 由 于 两 个 衍生 Tuple 的 ID 值 碰巧 相同 ,造成 ack-val 在 Tuple Tree 处 理 完 之 
前 就 变 成 0? 由 于 衍生 Tuple 也 是 64b 的 随机 数 ,两 个 64b 随机 生成 的 ID 值 完全 一 样 的 概 
率 非 常 低 , 几 乎 可 忽略 不 计 , 因 此 在 Tuple Tree 处 理 完 之 前 ack-val 为 0 的 概率 非常 小 。 

(4) 根据 最 后 的 Tuple 处 理 成 功 或 失败 结果 ,Acker 会 调用 对 应 的 Spout 的 ack() 或 
fail() 方 法 通知 Spout 结果 ,如 果 用 户 重 写 了 ack() 和 fail() 方 法 ,Storm 就 会 按 用 户 的 逻辑 
来 进行 处 理 。 

下 面 以 图 15-31 的 Topology Tree 为 例 讲解 Acker 算法 流程 。 该 Topology 包含 一 个 
Spout, 三 个 Bolts ,流程 步 又 如 下 。 

步骤 一 : Spout 读 人 数据 后 生成 了 两 个 Tuples (msgId 分 别 为 1001 和 1010) ,通知 
Acker。 
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步骤 二 : Tuple 1001 流入 Boltl ,处 理 完 后 产生 了 新 的 Tuple 1110,Boltl 向 Acker 发 送 
T Tuple 1001 的 Ack, 


步骤 一 步骤 二 步骤 三 






educi iub do! 1 Bolt3 
i 


ack_val^0111=0100 


1110^1111=0001 


人 


Bolt2 
1010^1111=0101 





图 15-31 Acker 算法 算 例 


Tuple 1010 流入 Bolt2 ,处 理 完 后 产生 了 新 的 Tuple 1111. Bolt2 向 Acker 发 送 了 tuple 
1010 的 Ack, 

步 又 三 : 两 个 Tuples 1110.1111 流向 Bolt3 ,处 理 完 后 不 再 有 新 Tuple 产生 ,Bolt3 向 
Acker 发 送 了 处 理 结果 的 Ack. 

按照 上 述 Acker 算法 ,Acker 计算 ack-val 校 验 值 步骤 如 下 。 

步骤 一 : 初始 化 ack-val = 0000; 

步骤 一 结束 时 ack-val = 0000 XOR 1001 XOR 1010 = 0011; 

步骤 二 : Boltl 在 送出 的 Ack 消息 中 包含 tmp-ack-val-1 = 1001 XOR 1110 = 0111; 

Acker 收 到 Boltl 的 Ack 消息 ,ack-val = ack-val XOR tmp-ack-val-1 

— 0011 XOR 0111 — 0100; 

Bolt2 在 送出 的 Ack 消息 中 包含 tmp-ack-val-2 = 1010 XOR 1111 = 0101; 

Acker 收 到 Bolt2 的 Ack 消息 ,ack-val — ack-val XOR tmp-ack-val-2 
— 0100 XOR 0101 — 0001; 


| 


步 又 二 结束 时 ack-val = 0001; 

步骤 三 : Bolt3 在 送出 的 Ack 消息 中 包含 tmp-ack-val-3 = 1110 XOR 1111 = 0001; 

Acker 收 到 Bolt3 的 Ack 消息 ,ack-val — ack-val XOR tmp-ack-val-3 

— 0001 XOR 0001 — 0000; 

步骤 三 结束 时 ,ack-val = 0; 因此 判定 该 Tuple Tree 处 理 完毕 ,计算 结束 。 

前 面 提 到 对 于 大 规模 数据 情形 ,为 了 提高 处 理 效率 ,Acker 组 件 也 可 能 以 多 线程 模式 运 
行 , 即 有 多 个 Acker Task 存在 ,如 何 将 一 个 Tuple Tree 所 有 的 Tuples 都 映射 到 一 个 
Acker? 由 于 Spout 生成 的 初始 Tuple 都 有 一 个 根 节点 标识 msgId, 而 后 基于 初始 Tuple j^ 
生 的 衍生 Tuples 除了 自身 随机 生成 的 msgId, 还 都 包含 这 个 根 节 点 标识 msgId, 因 此 Storm 
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可 以 用 对 根 节 点 msgId 哈 希 取 模 的 方法 来 把 一 个 Tuple Tree 的 所 有 节点 (它们 都 带 有 相同 
根 节点 msgId) 映 射 到 同一 个 Acker. 

5. ACK 关闭 

在 某 些 场景 下 我 们 不 希望 使 用 ACK 可 靠 性 机 制 , 或 者 对 一 部 分 流 数据 不 需要 保证 处 
理 成 功 , 可 以 用 如 下 方式 关闭 或 部 分 关闭 ACK 功能 。 

(D 把 Config; TOPOLOGY ACKERS 设置 成 0。 在 这 种 情况 下 ,Storm 会 在 Spout 发 
射 一 个 Tuple 之 后 马上 调用 Spout 的 ack() 方 法 ,这 样 这 个 Tuple 整个 的 Tuple Tree 不 会 
被 跟踪 。 

(2) 也 可 在 Spout 发 射 Tuple 的 时 候 不 设 定 msgId 来 达到 不 跟踪 这 个 Tuple 的 目的 ， 
这 种 发 射 方式 是 一 种 不 可 靠 的 发 射 。 

(3) 如 果 对 于 一 个 Tuple Tree 的 某 一 部 分 Tuples 是 否 处 理 成 功 不 关注 ,可 以 在 Bolt 
发 射 这 些 Tuple 的 时 候 不 锚 定 它们 。 这 样 这 部 分 Tuples 就 不 会 加 入 到 Tuple Tree 里 面 ， 
也 就 不 会 被 跟踪 了 。 

6. 容错 机 制 

Storm 从 任务 (线程 ) .组 件 (进程 ) .节点 (系统 ) 三 个 层面 设计 了 系统 容错 机 制 , 尽 可 能 
实现 一 种 可 靠 的 服务 。 

1) 任务 级 容错 (Task) 

如 果 Bolt Task 线程 崩溃 ,导致 流转 到 该 Bolt 的 Tuple 未 被 应 答 。 此 时 Acker 会 将 所 
有 与 此 Bolt Task 关联 的 Tuples 都 设置 为 为 超时 失败 ,并 调用 对 应 的 Spout 的 fail() 方 法 
进行 后 续 处 理 。 

如 果 Acker Task 本 身 失 效 ,Storm 会 判定 它 在 失败 之 前 维护 的 所 有 Tuples 都 因 超 时 
而 失败 ,对 应 Spout 的 fail() 方 法 将 被 调用 。 

如 果 Spout 任务 失败 ,在 这 种 情况 下 .与 Spout 对 接 的 外 部 设备 (如 MQ 队列 ) 负 责 消息 
的 完整 性 。 例 如 当 客 户 端 异常 时 ,外 部 kestrel 队列 会 将 处 于 pending 状态 的 所 有 消息 重新 
放 回 队列 中 。 另 外 ,Storm 记录 有 Spout 成 功 处 理 的 进度 , 当 Spout 任务 重启 时 ,会 继续 从 
以 前 的 成 功 点 开始 。 

2) Slot 故障 (Process) 

如 果 一 个 Worker 进程 失败 ,每 个 Worker 包含 的 数 个 Bolt( 或 Spout) Tasks 也 失效 
了 。 负 责 监 控 此 Worker 的 Supervisor 会 尝试 在 本 机 重启 它 ,如果 在 启动 多 次 后 仍然 失败 ， 
它 将 无 法 发 送 心跳 信息 到 Nimbus. Nimbus 将 判定 此 Worker 失效 ,将 在 另 一 台 机 器 上 重新 
分 配 Worker 并 启动 。 

如 果 Supervisor 失败 ,由 于 Supervisor 是 无 状态 的 (所 有 的 状态 都 保存 在 ZooKeeper 
或 者 磁盘 上 ) 和 fail-fast( 每 当 遇 到 任何 意外 的 情况 ,进程 自动 毁灭 ), 因 此 Supervisor 的 失败 
不 会 影响 当前 正在 运行 的 任务 ,只 要 及 时 将 Supervisor 重新 启动 即 可 。 

如 果 Nimbus 失败 ,由 于 Nimbus 也 是 无 状态 和 fail-fast 的 ,因此 Nimbus 的 失败 不 会 
影响 当前 正在 运行 的 任务 ,只 是 无 法 提交 新 的 Topology, 只 需 及 时 将 它 重启 即 可 。 

3) 集群 节点 故障 (Node) 

如 果 Storm 集群 节点 发 生 故 障 。 此 时 Nimbus 会 将 此 节点 上 所 有 正在 运行 的 任务 转移 
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到 其 他 可 用 的 节点 上 运行 。 
若是 ZooKeeper 集群 节点 故障 ,ZooKeeper 自身 有 容错 机 制 ,可 以 保证 少 于 半数 的 机 器 
宕 机 系统 仍 可 正常 运行 。 


15.4 Storm 编程 接口 


1. Topology 配置 

在 运行 Topology 之 前 ,可 以 通过 一 些 参数 的 配置 来 调节 运行 时 的 状态 ,参数 的 配置 是 
通过 Storm 框架 部 署 目 录 下 的 conf/storm. yaml 文件 来 完成 的 ,在 此 文件 中 可 以 配置 运行 
时 的 Storm 本 地 目录 路 径 、 运 行 时 Worker 的 数目 等 。 

在 Storm 代码 中 也 可 以 设置 Config 的 一 些 参数 ,但 其 优先 级 是 不 同 的 ,不 同 地 方 配置 
Config 参数 的 优先 级 顺序 为 : 


default. yaml < storm. yanl < topology 代码 设 定 


TE storm. yaml 中 常用 的 几 个 选项 如 表 15-6 所 示 o 


配置 选项 名 称 


topology. max. task. parallelism 


表 15-6 storm, yami 的 常用 选项 
作 用 
每 个 Topology 运行 时 最 大 的 executor 数目 





topology. workers 


每 个 Topology 运行 时 的 worker 的 默认 数目 , 若 在 代码 中 设置 , 则 此 
选项 值 被 履 盖 





storm. zookeeper. servers 


ZooKeeper 集群 的 节点 列表 





storm. local. dir 


Storm 用 于 存储 jar 包 和 临时 文件 的 本 地 存储 目录 





storm. zookeeper. root 


Storm 在 ZooKeeper 集群 中 的 根 目录 ,默认 是 “/” 





ui. port 


Storm 集群 的 UI 地址 端口 号 ,默认 是 8080 





nimbus. host: 


Nimbus 节点 的 Host 





supervisor. slots. ports 


Supervisor 节点 的 Worker 占 位 槽 ,集群 中 的 所 有 Topology 公用 这 
些 槽 位 数 ,即使 提交 时 设置 了 较 大 数值 的 槽 位 数 ,系统 也 会 按照 当前 
集群 中 实际 剩余 的 槽 位 数 来 进行 分 配 , 当 所 有 的 槽 位 数 都 分 配 完 时 ， 
新 提交 的 Topology 只 能 等 待 ,系统 会 一 直 监 测 是 否 有 空余 的 槽 位 空 
出 来 ,如 果 有 ,就 再 次 给 新 提交 的 Topology 分 配 





supervisor. worker. timeout. secs 


Worker 的 超时 时 间 , 单 位 为 秒 ,超时 后 ,Storm 认为 当前 Worker 3E 
程 死 掉 , 会 重新 分 配 其 运行 的 Task 任务 





drpc. servers 


在 使 用 DRPC 服务 时 ,DRPC Server 的 服务 器 列表 





drpc. port 





在 使 用 DRPC 服务 时 ,DRPC Server 的 服务 端口 





2. Topology 构建 与 提交 
示例 如 下 。 
//Topology 定义 


TopologyBuilder builder = new TopologyBuilder(); 
//5€ X. Spout 组 件 ,设置 并 发 数 为 1 
builder. setSpout("word — reader", new WordReader(),1); 
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//3€ X. Bolt 组 件 word- normalizer 

// 其 接受 Spout 分 发 方式 为 Shuffle Grouping 

builder. setBolt ( " word — normalizer", new WordNormalizer ( )). shuffleGrouping ( " word — 
reader"); 

//5 X. Bolt 组 件 word- counter, 并 发 数 为 1 

// 其 接受 word- normalizer 分 发 方式 为 Fields Grouping 

builder. setBolt("word - counter", new WordCount(), 1). fieldsGrouping("word - normalizer", new 
Fields("word")); 


// 作 业 配置 

Config conf = new Config(); 
conf. put("wordsFile", args[0]); 
// 设 置 Worker 数目 

config. setNumWorkers(4); 

// 设 置 Acker 

conf. setNumAckers(1); 

// 设 置 运行 模式 

conf. setDebug(true) ; 


// 提 交 运 行 

conf.put(Config. TOPOLOGY MAX SPOUT PENDING, 1); 

LocalCluster cluster - new LocalCluster(); 

cluster. submitTopology("Demo - Topology", conf, builder.createTopology()); 
Thread. sleep( 2000); 

cluster. shutdown() ; 


3. Spout 编程 接口 
Spout 组 件 的 实现 可 以 通过 继承 BaseRichSpout 类 或 者 其 他 Spout 类 来 完成 ,也 可 以 通 
过 实现 IRichSpout 接口 来 实现 。 


public class RandomSpout extends BaseRichSpout { 
SpoutOutputCollector collector = null; 
String[ ] goods = ( " iphone"," xiaomi"," meizu"," zhongxing"," huawei"," moto"," sumsung", 
"simens"); 
// 进 行 初 始 化 ,只 在 开始 时 调用 一 次 
@Override 
public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) ( 
this.collector - collector; 
) 
//3€ X. tunple 的 schema 
GOverride 
public void declareOutputFields(OutputFieldsDeclarer declarer) { 
declarer.declare(new Fields("src word")); 
) 
// 发 送 tuple 
@Override 
public void nextTuple() { 
Random random = new Random(); 
String good = goods[ random. nextInt(goods. length)]; 
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// 封 装 到 tuple 中 发 送 


collector. emit(new Values(good)); 


) 


消息 源 Spouts 是 Storm 里 面 一 个 Topology 的 消息 生产 者 。 一 般 来 说 ,消息 源 会 从 一 
个 外 部 源 读 取 数 据 并 且 向 Topology 里 面 发 出 消息 : Tuple。 消 息 源 Spouts 可 以 是 可 靠 的 
也 可 以 是 不 可 靠 的 。 一 个 可 靠 的 消息 源 可 以 重新 发 射 一 个 Tuple, 如 果 这 个 Tuple 没有 被 
Storm 成 功 处 理 , 但 是 一 个 不 可 靠 的 消息 源 Spouts 一 旦 发 出 一 个 Tuple 就 把 它 彻底 忘 
了 一 一 也 就 不 可 能 再 发 了 。 
消息 源 可 以 发 射 多 条 消息 流 Stream。 要 达到 这 样 的 效果 ,使 用 OutFieldsDeclarer. 
declareStream 用 来 定义 多 个 Stream, 然 后 使 用 SpoutOutputCollector 来 发 射 指定 的 Sream。 
Spout 类 里 面 最 重要 的 方法 是 nextTuple, 要 么 发 射 一 个 新 的 Tuple 到 Topology 里 面 
或 者 简单 地 返回 如 果 已 经 没有 新 的 Tuple 了 。 要 注意 的 是 nextTuple 方法 不 能 Block 
Spout 的 实现 ,因为 Storm 在 同一 个 线程 上 面 调 用 所 有 消息 源 Spout 的 方法 。 
另外 两 个 比较 重要 的 Spout 方法 是 ack 和 fail; Storm 在 检测 到 一 个 Tuple 被 整个 
Topology 成 功 处 理 的 时 候 调用 ack, 否则 调用 fail。Storm 只 对 可 靠 的 Spout 调用 ack 和 
fail; 
1) open( ) 方 法 
当 一 个 Task 被 初始 化 的 时 候 会 调用 此 方法 对 发 送 Tuple fff $$ , SpoutOutputCollector 
和 配置 对 象 TopologyContext 初始 化 。 示 例如 下 。 
//create file and get collector object 
public void open(Map conf, TopologyContext context, 
SpoutOutputCollector collector) ( 
try ( 
this.fileReader - new FileReader(conf.get("wordsFile"). 
toString()) 
a» (FileNotFoundException e) { 
throw new RuntimeException("Error [" * conf.get("wordFile") + 
Sys 
) 


this.collector - collector; 


) 
2) declareOutputFields O 7375 
此 方法 用 于 声明 Spout 发 送 的 Tuple 的 字段 。 示 例如 下 。 
//declare field name 
public void declareOutputFields(OutputFieldsDeclarer declarer) ( 
declarer.declare(new Fields("word")); 
) 
3) nextTupleO 757A 
这 是 Spout 最 重要 的 一 个 方法 ,发 射 Tuple 到 Topology, 且 一 直 循环 执行 。 示 例如 下 。 
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示例 一 : 不 可 靠 的 Tuple 发 送 (无 magId) 。 


//xandomly emits a word from an array as a Tuple without msgId 
public void nextTuple() ( 
Utils.sleep(100); 
final String[] words = new String[] 
(" twitter", "facebook" , "google") ; 
final Random rand - new Random(); 
final String word - words[rand. nextInt(words. length)]; 
this. collector. emit(new Values(word)); 


) 
示例 二 : 可 靠 的 Tuple 发 送 ( 有 msgId) 。 


//read in a line from a file and emits as a Tuple with msgId 
public void nextTuple() ( 
if (completed)( 
try ( 
Thread. sleep(1000) ; 
) catch (InterruptedException e) ( 
//Do nothing 
) 
return; 
) 
//a string contains Tuple's msgId 
String str; 
//Open the reader 
BufferedReader reader - new BufferedReader(fileReader); 
try{ 
//read all lines 
while((str = reader.readLine()) != null)( 
//each time emits a Tuple containing one line 
//each Tuple has a msgId in str 
this. collector. emit (new Values(str), str); 
) 
) 
catch(Exception e)( 
throw new RuntimeException("Error reading tuple", e); 
) finally( 
completed - true; 
f 
} 


4) ack() 和 fail() 方 法 

每 个 Tuple 执行 完成 后 由 Acker 调用 (在 不 可 靠 发 射 即 不 需 Acker 情况 下 ,由 Spout A 
己 直接 调用 )。Acker 根据 msgId 跟踪 Tuple 执行 是 否 完成 调用 ack O zX fail O ,用 户 需 要 
重 写 这 两 个 方法 ,这 样 调用 时 就 可 执行 用 户 的 处 理 逻 辑 。 

4. Bolt 编程 接口 

Bolt 接收 由 Spout 或 者 其 他 上 游 Bolt 类 发 来 的 Tuple, 对 其 进行 处 理 , 然 后 发 送 Tuple 
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至 下 游 ( 也 可 停止 )。Bolt 组 件 的 实现 可 以 通过 继承 BasicRichBolt 类 或 者 IRichBolt 接口 来 
完成 。 示 例如 下 。 


class SplitSentence implenents IRichBolt { 
private OutputCollector collector; 


//do sone prepare work 
public void prepare(Map conf, TopologyContext context, OutputCollector collector) { 
this.collector = collector; 
) 
//execute for each input tuple 
public void execute(Tuple tuple) { 
String sentence - tuple.getString(0); 
for(String word : sentence.split(" ")) { 
//emits an anchored output tuple 
collector.emit(tuple, new Values(word)); 
} 
collector. ack( tuple); 
} 
//do clean work 
public void cleanup(){ } 
//specify field name for output tuple 
public void declareOutputFields(OutputFieldsDeclarer declarer)( 
declar.declare(new Fields("word")); 
} 
} 


Bolt 类 需要 实现 的 主要 方法 有 : prepare ( )，execute ( ) declareOutputFields ( ) . 
cleanup() 等 。 
1) prepare() 方 法 
在 Bolt 开始 处 理 Tuple 之 前 做 一 些 准 备 工作 。 示 例如 下 。 
@Override 
public void prepare(Map stormConf, TopologyContext context) { 
this. counters = new HashMap < String, Integer >(); 
this. name = context. getThisComponentId(); 
this. id = context.getThisTaskId(); 
) 
2) execute() Jr i 
这 是 Bolt 中 最 关键 的 一 个 方法 ,对 于 Tuple 的 处 理 都 在 此 方法 中 进行 。 具 体 的 发 送 衍 
生 Tuples 是 通过 emit() 来 完成 的 。 如 果 用 户 的 Bolt 类 是 通过 实现 IRichBolt 基础 类 来 构 
建 ,此 时 调用 emit() 时 有 两 种 情况 :一 是 emit 带 有 一 个 参数 ,二 是 带 有 两 个 参数 。 
CD emit() 有 一 个 参数 : 此 唯一 的 参数 是 发 送 到 下 游 的 Tuple。 此 时 ,由 上 游 发 来 的 原 
来 的 Tuple 在 此 隔断 ,新 的 Tuple 和 旧 的 Tuple 不 再 属于 同一 棵 Tuple Tree。 新 的 Tuple 
可 另 起 一 个 新 的 Tuple Tree。 示 例如 下 。 


//Bolt emits a not - anchored tuple 
public void execute(Tuple input - tuple) ( 
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String sentence = input- tuple.getString(0); 
for(String word : sentence. split(" ")) ( 
//enit a not - anchored tuple 
collector. emit(new Values(word)); 


) 


(2) emit() 有 两 个 参数 : 第 一 个 参数 是 输入 的 Tuple, 第 二 个 参数 是 发 往 下 游 新 的 
Tuple, 这 两 个 Tuples 进行 了 关联 。 这 样 , 新 Tuple MIA Tuple 仍然 属于 同一 棵 Tuple 
Tree。 即 如 果 下 游 的 Bolt 处 理 新 Tuple 失败 , 则 会 向 上 传递 到 当前 Bolt, 当前 Bolt 根据 旧 
Tuple 流 继续 往 上 游 传递 ,申请 重 发 失败 的 Tuple, 以 保证 处 理 的 可 靠 性 。 示 例如 下 。 


//Bolt emits an anchored tuple 
public void execute(Tuple input - tuple) { 
String sentence = input - tuple.getString(0); 
for(String word : sentence. split(" ")) ( 
//anchor the emitted tuple to the input tuple 
collector.emit(input - tuple, new Values(word)); 
//notify the input tuple's processing result 
collector.ack(input- tuple); 


) 


Storm 还 提供 了 另 一 种 通过 基础 类 IBasicBolt 自动 实现 anchored Tuple 的 方法 。 对 于 通过 
实现 IBasicBolt 基础 类 构建 的 用 户 Bolt 类 ,会 在 执行 execute() 方 法 时 隐形 关联 新 旧 Tuples (这 
时 ,分 发 消息 的 BasicOutputCollector 自动 锚 定 到 输入 的 Tuple ) ,并 自动 调用 ack() 方 法 。 


//automatically anchored Bolt 
class SplitSentence extends BaseBasicBolt { 
public void execute(Tuple tuple, BasicOutputCollector collector) ( 
String sentence - tuple.getString(0); 
for(String word : sentence. split(" ")) ( 
//enits an auto — anchored Tuple 
collector. emit(new Values(word)); 


} 


public void declareOutputFields(OutputFieldsDeclarer declarer) { 
declarer.declare(new Fields("word")); 
) 
) 


5. 复合 锚 定 

在 某 些 场景 , Bolt 需要 接收 两 个 甚至 更 多 上 游 来 的 Tuple, 如 
图 15-32 所 示 ,Bolt D 需要 处 理 上 游 Bolt B 和 Bolt C 发 来 的 Tuples。 (8) 
Bolt D 处 理 完 后 会 向 下 游 发 送 新 的 Tuple, 为 了 提供 可 靠 性 机 制 , 需 L X9 
要 把 新 Tuple 与 上 游 的 Tuple B 和 Tuple C 进行 关联 ,这 就 是 复合 锚 © 


定 。 通 过 这 种 方式 ,Bolt 任何 时 候 调 用 ack() 或 fail() 方 法 都 会 通知 到 
+j Tuple B 和 Tuple C 相关 的 Spouts。 代 码 示 例如 下 。 图 15-32 ”复合 锁定 
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List« Tuple» anchors = new ArrayList < Tuple»(); 
anchors. add( tuple - B); 

anchors. add( tuple - C); 

//enits a new tuple with anchoring tuple — B and tuple- C 
this.collector. emit(anchors, new Values(10)); 


cleanup() 方 法 : 在 Bolt 即将 关闭 时 调用 ,做 清扫 工作 。 
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习题 


1. 流 数据 处 理 有 哪 两 种 基本 模式 ? 从 系统 吞吐 率 和 时 间 延 迟 性 看 ,这 两 种 模式 各 有 什 


么 特点 ? 


2. Spark 的 micro-batch 模型 RDD( Resilient Distributed Dataset) 以 2s 为 单位 截取 数 
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据 流 构成 一 个 个 数据 包 。 如 果 以 小 于 2s 或 大 于 2s 为 单位 截取 数据 流 构成 RDD, 各 有 什么 
DL 

3. 什么 是 Spark 计算 逻辑 模型 (抽象 模型 )Topology? 什么 是 Spark 计算 物理 模型 ( 计 
算 架 构 )? 计算 逻辑 模型 是 如 何 映射 到 实际 计算 架构 上 的 ? 

4. 根据 5. 3 节 的 Acker 工作 机 制 ,说 明 为 什么 Acker 收 到 一 条 Ack 消息 使 ack-val 一 
0 时 ,就 意味 着 该 条 Tuple 的 处 理 结束 ? 

5. 图 15-30 的 Acker 算 例如 果 扩 展 为 1 个 Spout 十 4 个 Bolts 情形 ,ack_val 的 初始 值 
仍然 为 0。 列 出 计算 步骤 验证 : 在 步骤 三 结束 时 ,ack_val = 0. 


内 存 计 








大 数据 的 处 理 主要 包括 以 下 三 种 类 型 。 

CO 超大 规模 数据 的 批 处 理 : 通常 时 间 延 迟 在 数 分 钟 到 数 十 小 时 之 间 。 

(2) 静态 数据 的 交互 式 查询 : 通常 时 间 延 迟 在 数秒 到 数 分 钟 之 间 。 

(3) 数据 流 的 实时 动态 处 理 : 通常 时 间 延 迟 在 毫秒 到 数秒 之 间 。 

第 一 类 的 典型 是 MapReduce 提供 的 对 超大 规模 数据 的 复杂 问题 的 分 析 计算 ,其 特点 是 
数据 量 巨 大 、 计 算 模型 简单 、 运 行 在 廉价 商业 集群 上 ,但 计算 时 延长 。 第 二 类 有 基于 
Hadoop 的 开源 、 低 延迟 .高 并 发 (MPP) 查 询 引擎 Impala? , 它 将 传统 数据 库 的 SQL 查询 界 
面 和 多 用 户 特性 与 Hadoop 可 扩展 性 结合 起 来 ,提供 了 针对 大 规模 数据 的 交互 式 查询 服务 。 
第 三 类 的 代表 是 Twitter Storm? , Spark Streaming? , Yahoo 的 S4 外 ,其 特点 是 基于 有 向 
图 (DAG) 结 构 提 供 动态 数据 流 的 实时 处 理 。 

MapReduce 这 种 围绕 磁盘 存储 构建 的 分 布 式 并 行 处 理 模型 由 于 如 下 原因 一 直 在 计算 
速度 方面 表现 不 理想 ,很 难 用 于 在 线 商 务 智能 分 析 这 类 大 数据 应 用 。 

(1) MapReduce 的 中 间 数 据 带 来 大 量 的 磁盘 T/O 操作 , 读 写 数据 速度 慢 , 造 成 性 能 
瓶颈 ; 

(2) 对 大 容量 的 中 间 数 据 未 采用 数据 压缩 技术 ,无 法 存留 在 内 存 空间 ; 

(3) 对 各 类 数据 不 加 区 分 ,一概 采用 Map/ Reduce 循环 迭代 计算 步骤 ,导致 某 些 延迟 敏 
感 的 数据 得 不 到 优先 服务 。 

工业 界 和 学 术 界 都 试图 通过 MapReduce 之 外 的 计算 模型 和 计算 架构 来 提供 低 时 延 的 
分 布 式 计算 处 理 系统 ,3. 2 节 描 述 的 大 数据 计算 光谱 中 与 离线 批 处 理 模型 相差 异 的 内 存 计 
算 模型 , 即 是 针对 上 述 问题 提出 的 解决 方案 。 

MapReduce 的 性 能 瓶颈 主要 是 由 于 磁盘 读 写 迟 滞 造 成 的 。 表 16-1 给 出 了 CPU 访问 
内 存 和 磁盘 的 时 间 量 级 ,可 以 看 出 ,内 存 访问 时 间 (100ns) 与 磁盘 访问 时 间 (5 000 000ns) 相 
差 5 万 倍 , 而 顺序 读 取 1MB 数据 所 花 时 间 ,磁盘 是 内 存 的 120 倍 。 鉴 于 内 存 与 磁盘 之 间 访 
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问 速度 的 巨大 差异 ,很 多 的 研究 工作 致力 于 把 计算 数据 一 次 装载 入 内存 ,或 是 通过 各 种 内 存 
技术 提高 频繁 使 用 数据 的 内 存 驻 存 率 \ 减 少 磁盘 读 写 操作 , 即 我 们 所 说 的 内 存 计 算 模 型 。 


表 16-1 内 存 与 磁盘 的 访问 时 间 比 较 














操 作 时 间 操 作 时 间 
主 内 存 访问 100ns 磁盘 寻 道 5 000 000ns 
内 存 顺 序 读 取 1MB 数据 250 000ns | 磁盘 顺序 读 取 1MB 数据 30 000 000ns 





内 存 计算 (In-memory Computing)5 习 指 采用 了 各 种 内 存 技术 在 计算 过 程 中 让 CPU 从 
主 内 存 读 写 数据 ,而 不 是 从 磁盘 读 写 数据 的 计算 模型 。 这 里 的 内 存 技术 包括 列 存储 格式 C 
据 分 区 与 压缩 . 增 量 写 和 人 无 汇总 表 等 方法 。 目 前 ,内 存 计算 主要 是 从 存储 架构 (分 布 式 缓 
存 、 内 存 数 据 库 、 内 存 云 体系 ) 和 计算 模型 (基于 主 内 存 的 并 行 处 理 , 算 法 下 放 到 数据 层 ) 两 个 
方面 提出 解决 方案 ,如 图 16-1 所 示 。 
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图 16-1 内 存 计 算 架 构 
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下 面 先 对 几 种 主要 的 内 存 计 算 体 系 进行 介绍 ,然后 以 开源 的 Memcache 和 Spark 作为 
典型 例子 介绍 内 存 计算 架构 和 实现 技术 。 


16.1 分 布 式 缓存 体系 


1. 分 布 式 缓存 架构 

缓存 (Cache) 指 将 高 访问 率 数据 存储 在 访问 速度 相对 较 高 的 存储 介质 (如 CPU 的 缓存 
或 机 器 主 内 存 ) 供 系统 快速 访问 ,减少 数据 访问 时 间 。 图 16-2 给 出 了 计算 机 存储 结构 中 
CPU, Z RET Cache) , EA ff (Memory) N ff (Flash Drive) 以 及 硬盘 (Hard Drive) 各 级 组 
件 的 访问 速度 金字 塔 ( 越 处 于 金字 塔 底部 ,访问 速度 越 慢 ) 。 可 以 看 出 缓存 的 访问 速度 与 硬 
盘 甚至 闪存 相 比 都 是 差异 巨大 的 ,这 就 引发 了 人 们 想 更 多 地 利用 缓存 来 提高 数据 访问 速度 
的 愿望 。 

分 布 式 缓存 系统 (Distributed Cache System) 包 含 如 下 两 层 含 义 。 

COD 由 多 台 服 务 器 组 成 一 个 缓存 服务 器 集群 ,以 多 节点 集群 方式 提供 缓存 服务 , 即 物 理 
架构 上 是 分 布 式 ; 

(2) 缓存 数据 (可 看 作 一 个 大 数据 表 ) 被 分 布 式 存储 在 多 台 缓 存 服务 器 上 , 即 逻辑 架构 
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上 也 是 分 布 式 的 。 

分 布 式 缓存 系统 的 工作 原理 如 图 16-3 所 示 。 据 测算 ,大 部 分 的 业务 场景 下 ,80% 的 访 
问 量 都 集中 在 20% 的 热 数 据 上 (所 谓 二 八 原则 )。 因 此 ,通过 引入 缓存 服务 器 ,将 高 频 访 问 
的 数据 放 入 内 存 中 ,可 以 大 大 提高 系统 整体 的 快速 响应 和 承载 能 力 。 图 16-3 中 的 蓝 色 步 又 
为 : 当 应 用 程序 (浏览 器 ) 第 一 次 访问 某 个 数据 ,而 该 数据 不 在 缓存 服务 器 Cmemcached) 上 ， 
则 系统 将 该 数据 从 数据 库 C(RDBS) 中 读 出 ,返回 给 应 用 程序 ,同时 存 人 缓存 服务 器 。 绿 色 步 
又 为 : 当 应 用 程序 再 次 访问 该 数据 , 则 直接 从 缓存 服务 器 中 读 出 ,大 大 加 快 了 访问 速度 。 分 
布 式 缓存 系统 的 典型 应 用 场景 如 下 。 

(D Web 页 面 缓存 。 用 来 缓存 页 面 的 内 容 片 段 , 包 括 HTML、CSS、 图 片 、 音 频 视频 文件 
等 ,多 应 用 于 商业 门户 或 社交 网 站 。 





—» 首次 访问 : 从 RDBMS 中 取得 数据 保存 到 memcached 
—> 第 二 次 后 : 从 memcached 中 取得 数据 显示 页 面 


图 16-3 ”分 布 式 缓存 系统 原理 
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(2) 应 用 对 象 缓存 。 缓 存 系统 作为 ORM 框架 的 二 级 缓存 对 应 用 访问 提供 服务 ,目的 是 
减轻 数据 库 负载 压力 ,加 快 访问 速度 。 

(3) 状态 变量 缓存 。 包 括 Session 会 话 及 应 用 横向 扩展 时 的 状态 数据 等 ,这 类 数据 一 般 
是 难以 恢复 的 ,要 求 高 可 用 性 ,多 应 用 于 高 可 用 集群 应 用 。 

(4) 并 行 处 理 。 有 大 量 中 间 计 算 结果 需要 共享 。 

(5) 事件 处 理 。 提 供 了 针对 事件 流 的 连续 查询 实时 处 理 。 

(6) 极限 事务 处 理 。 为 事务 型 应 用 提供 高 吞吐 率 、 低 延 时 的 解决 方案 ,支持 高 并 发 事务 
请 求 处 理 , 多 应 用 于 铁路 .金融 服务 和 电信 等 领域 。 

需要 注意 的 是 ,这 里 的 缓存 服务 器 (Memcached) 不 同 于 常规 的 文件 服务 器 或 数据 库 服 
务 器 把 数据 存储 在 磁盘 上 ,而 是 存放 在 缓存 服务 器 的 内 存 中 ,显然 ,就 算是 20% 的 热 数 据 
(访问 相关 数据 ) 也 无 法 在 一 台 机 器 的 内 存 中 全 部 放下 ,需要 多 台 机 器 来 分 担 。 多 个 缓存 服 
务 器 分 布 式 共同 存放 一 个 数据 表 , 就 涉及 数据 同步 的 问题 ,目前 的 分 布 式 缓存 系统 架构 可 分 
为 数据 同步 和 数据 不 同步 两 类 。 

数据 同步 缓存 系统 以 JBoss Cache 为 代表 中 ,如 图 16-4 I. JBoss Cache 的 缓存 服务 
器 集群 中 所 有 节点 均 保 存 一 份 相同 的 缓存 数据 , 当 某 个 节点 有 缓存 数据 更 新 的 时 候 , 会 通知 
集群 中 其 他 机 器 更 新 内 存 或 清除 缓存 数据 。JBoss Cache 通常 将 应 用 程序 和 JBoss Cache 组 
存 部 署 在 同一 台 服 务 器 上 ,应 用 程序 可 从 本 地 内 存 快速 获取 缓存 数据 ,但 是 这 种 架构 带 来 的 
问题 是 缓存 数据 数量 受 限 于 单一 服务 器 的 内 存 空间 ,而 且 当 集群 规模 增 大 时 ,同步 更 新 信息 
到 集群 所 有 节点 的 代价 也 昂贵 。 因 此 这 种 方案 更 多 见于 企业 应 用 系统 ,而 很 少 在 大 型 商业 
网 站 使 用 。 
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更 新 同步 
图 16-4 数据 同步 的 JBoss Cache 缓存 系统 


Memcache 则 采用 了 数据 不 同步 的 架构 ,如 图 16-5 所 示 。Memcache 采用 一 组 专用 缓存 
服务 器 ,缓存 与 应 用 分 离 部 署 。 在 存放 和 访问 缓存 数据 时 ,应 用 程序 通过 一 致 性 Hash 算 
AUO 2 选择 缓存 节点 ,集群 缓存 服务 器 之 间 不 通信 ,也 不 需要 数据 同步 ,因此 集群 规模 可 以 
很 容易 地 实现 扩容 ,具有 良好 的 可 伸缩 性 。 

2. 内 存 技术 

在 系统 实现 方面 .分布 式 缓存 系统 主要 通过 如 下 的 内 存 关 键 技术 来 实现 数据 的 快速 
访问 。 
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图 16-5 数据 不 同步 的 Memcache 缓存 系统 































































































1) 数据 压缩 存储 
包括 字典 编码 算法 ,高 效 压缩 存储 .数据 操作 等 。 下 面 以 图 16-6 为 例 介 绍 字典 编码 基 
本 原理 。 
# | Customers * | Material 
1 | Chevrier 1 | MP3 Player 
2 |Di Dio 2 | Radio 
"o Time Materia Came Sin 3 los 3 
1 14:05 | Radio Dubois 1 4 | Miller 4 | Stove 
2 | 14 | Laptop Dibo | 2 5 [Newman 5 | Lar 
3 | 1432 | Stove Miler | 1 E 
4 | 1438 | Mp3player | Newman | 2 Row | Date! | Materia | Customer | Quantity 
5 | 14:48 | Radio Dubois | 3 1 | 845 2 3 1 
6 14:55 | Refrigerator | Miller | 1 2 851 5 2 2 
7 | 1591 | Stove Cherer | 1 3 | 82 4 4 1 
4 | 878 1 5 2 
5 | 888 2 3 3 
6 | 895 3 4 1 
7 | 90 4 1 1 




















图 16-6 字典 编码 压缩 
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对 于 图 16-6 左边 的 原始 数据 表 ( 全 局 表 ), 它 的 三 个 列 “Date/Time”,“Material”， 
"Customer Name” 均 是 字符 串 格式 ,十 分 耗费 存储 空间 。 因 此 我 们 构建 了 右上 的 两 个 检索 
表 Customers 和 Material ,检索 表 的 构建 方法 是 抽出 所 有 原始 表 的 对 应 数据 项 ,合并 相同 
项 ,然后 重新 编号 ,注意 检索 表 中 编号 是 局 部 ID, 不 同 于 全 局 表 中 的 RowID, 但 检索 表 包 含 
原始 表 中 所 有 的 对 应 项 。 

有 了 Customers 和 Material 这 两 个 检索 表 , 可 以 对 原始 数据 表 进 行 压缩 ,简单 的 做 法 
就 是 把 “Date/Time” 一 列 从 字符 串 换算 成 整数 ,将 “Material” 和 ”*Customer Name” 两 列 的 值 
(字符 串 ) 用 上 面 两 个 检索 表 对 应 的 局 部 ID 替换 。 比 如 ,原始 表 的 "Material” 列 的 第 一 个 数 
据 项 是 “Radio”, 在 检索 表 Material 中 查 到 该 字符 串 对 应 的 局 部 ID 为 2, 于 是 我 们 将 原始 表 
数据 项 *Radio” 换 成 2, 以 此 类 推 , 就 可 以 得 到 原始 数据 表 经 过 数据 字典 压缩 后 的 转换 表 
(图 16-6 右 下 表 )。 将 一 个 字符 串 转换 为 一 个 整数 值 存储 ,可 以 大 大 节约 存储 空间 。 

表 16-2 给 出 了 一 个 含 80 亿 条 数据 的 原始 表 经 过 字典 编码 压缩 后 ,其 存储 空间 的 对 比 。 
可 以 看 出 ,对 于 长 字符 段 (49 字 节 以 上 ) 的 “名 字 ?“ 姓 氏 ?”“ 城 市 "“ 国 家 ?等 列 , 压 缩 比分 别 
达到 了 17,17,19,49 ,压缩 效果 很 显著 。 


表 16-2 一 个 80 亿 条 数据 表 压 缩 后 的 数据 对 比 
































列 列 基数 $ A K/B 普通 文本 字典 编码 压缩 (字典 十 列 ) 
名 字 iid 49 365.10GB^4373 840MB | 234MB--21. 42GB^-22 168MB 
| p MM 
姓氏 ES 50 372. 5GB2«381 470MB 381MB + 21. 42GB« 22 316MB 
性 别 位 1 7.45GB2«7 630MB 2B--0. 933GB^«954MB 
100 万 
城市 ys 49 365.08GB^«373 840MB | 46. 73MB--18. 62GB^«19 120MB 
200 
国家 8 位 49 365.08GB2«373 840MB | 6. 09KB+7. 45GB~7 629MB 
40 000 
出 生日 期 16 位 2 14. 90GB2z15 260MB 76. 29KB 十 14. 90GB2«15 259MB 
2) 列 存储 结构 
包含 内 存 数 据 格式 .内 存 索引 等 技术 。 仍 然 以 图 16-6 的 数据 表 为 例 ,在 经 过 压缩 后 ,在 
内 存 空 间 内 的 存储 方式 (物理 存储 ) 有 行 存储 和 列 存储 两 种 方式 ,如 图 16-7 所 示 。 行 存储 是 


按照 数据 行 (水 平方 向 ) 读 取 数 据 , 然 后 在 内 存 中 以 行 (Row ) 为 单位 顺序 存储 ; 列 存储 则 是 
按照 数据 值 域 或 列 (垂直 方向 ) 读 取 数 据 ,然后 在 内 存 中 以 列 (Column 为 单位 顺序 存储 , 当 
然 必须 记录 每 一 列 在 内 存 空 间 中 的 起 始 位 置 。 

现在 看 一 下 数据 词典 压缩 和 列 存储 结构 结合 在 一 起 给 我 们 提供 的 检索 优势 。 假 设 需要 
查询 一 个 名 叫 “Miller” 的 顾客 购买 商品 “Refrigerator” 的 历史 记录 。 对 字典 编码 后 的 列 存 储 
数据 表 ( 图 16-6) 的 查询 步骤 如 下 。 

CD 查询 Customers 检索 表 ( 假 设 包含 100 万 名 顾客 ) 找 到 “Miller” 对 应 的 RowID fii 
(此 处 为 4) ,最 坏 情况 下 需 搜 索 100 万 次 。 
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Row-based store 


Column-based store 


图 16-7 行 存储 与 列 存储 


(2) 查询 Material 检索 表 ( 假 设 包 含 200 万 项 商品 ) 找 到 “Refrigerator” 对 应 的 局 部 ID 
值 (此 处 为 3), 最 坏 情况 下 需 搜索 200 万 次 。 

(3) 用 查 得 的 Miller 对 应 的 RowID 值 4 去 遍历 内 存 中 顺序 存储 的 “Customer Name" 
一 列 的 各 个 元 素 (已 转换 为 局 部 ID) , 若 不 等 于 4 就 设 为 0, 等 于 4 就 设 为 1, 遍历 完 需 要 
1000 万 次 操作 ,得 到 一 个 “0010010 ...” 这 样 的 二 进 制 数组 。 

OD. 用 查 得 的 Refrigerator 对 应 的 局 部 ID fii 3 去 遍历 内 存 中 顺序 存储 的 “Material” 一 
列 的 各 个 元 素 ( 已 转换 为 局 部 ID) , 若 不 等 于 3 就 设 为 0, 等 于 3 就 设 为 1, 遍历 完 需要 1000 
万 次 操作 ,得 到 一 个 “0000010 ...” 二 进 制 数组 。 

O 将 步骤 (3) 和 (4) 得 到 的 两 个 二 进 制 数组 进行 bit-wise AND 操作 ,得 到 的 结果 也 是 
一 个 二 进 制 数组 *0000010 .…”, 其 中 的 非 0 位 就 是 满足 我 们 查询 条 件 的 数据 项 。 此 处 我 们 
发 现 非 0 位 为 第 6 位 (图 16-8 的 Resultset) ,这 就 告诉 我 们 原始 数据 表 中 RowID— 6 的 数据 
项 满足 我 们 的 查询 条 件 。 如 果 结 果 二 进 制 数组 有 多 项 非 零 , 这 就 意味 着 原始 数据 表 中 有 多 
个 数据 项 满足 查询 条 件 。 

总 结 上 述 结果 ,字典 编码 十 列 存 储 数据 表 与 传统 的 行 存储 数据 表 ( 图 16-6 左边 的 原始 
数据 表 ) 相 比 有 如 下 优点 。 

CD 行 存储 数据 表 在 对 比 时 需要 把 一 条 数据 的 全 部 值 域 ( 列 ) 读 入 内 存 进行 比较 ,而 列 
存储 数据 表 只 需 读 人 对 应 的 值 域 ( 列 ) , 即 部 分 数据 。 

(2) 字典 编码 压缩 使 得 列 存储 数据 表 存 储 的 是 整数 值 (很 容易 用 二 进 制 数组 表示 ) ,与 
行 存储 数据 表 的 字符 串 操作 相 比 , 既 压 缩 了 物理 存储 空间 ,又 大 大 提高 了 查询 效率 。 

(3) 字典 编码 十 列 存储 所 提供 的 最 后 查询 结果 的 bitmap 操作 ( 即 对 二 进 制 数组 进行 
AND 操作 ) ,能 够 一 次 快速 .高效 地 定位 满足 查询 条 件 的 多 个 记录 项 ,无 须 像 行 存储 数据 表 
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Get all records with Customer Name Miller and Material Refrigerator 















































o», a # | Customers # |Material 
Dictionary lookup of the strings 
Strings are only compared once! | 1 | Chevrier 1 |MP3 Player 
2 [Di Dio 2 [Radio f 
Only those columns are read 
which are part of the query condition | 3 | Dubois 3 | Refrigerator 
4 | Miller 4 [Stove 
5 | Newman S | Laptop 
Integer comparison operations 
elel: lole]: e - elelelelelslel- 
0000 0 
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B x Combine —— 
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0000010 
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The resulting records can be assembled from the column stores fast;because positiions are known 
(here: 6th position in every column) 


图 16-8 基于 列 存储 的 数据 查询 操作 


那样 进行 循环 比较 查找 ,大 大 提高 了 查询 效率 。 

(4) 上 述 列 存储 数据 表 查 询 的 第 (3) 步 与 第 (4) 步 之 间 ( 即 对 不 同 的 列 数 据 扫描 ) 完 全 没 
有 依赖 关系 ,非常 利于 并 行 处 理 。 

3) 分 区 

对 数据 表 的 划分 及 多 节点 并 行 处 理 。 分 布 式 缓存 系统 主要 采用 水 平 划分 和 垂直 划分 两 
种 方式 ,如 图 16-9 所 示 。 图 中 Col A 和 Col B 即 是 做 了 水 平 划分 ( 按 列 ) 分 配给 核 1 和 核 2 
做 并 行 处 理 ; Col C 则 是 做 了 垂直 划分 (基于 RowKey) ,按照 设计 的 算法 划分 成 不 同 的 分 


实例 或 者 集群 环境 
的 水 平 或 者 垂直 划分 
是 完全 透明 的 


Processed 














图 16-9 数据 表 的 划分 与 并 行 处 理 
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区 ,然后 分 配给 核 3 和 核 4 去 处 理 。 在 实际 应 用 中 ,我们 常常 对 基于 列 (Column) 的 分 区 数 
据 做 数据 压缩 处 理 , 由 于 一 列 数据 中 很 多 都 会 重复 ,因此 对 列 存储 采用 压缩 方法 的 效果 都 比 
较 好 ,分 区 压缩 不 仅 节省 了 内 存 存储 空间 ,更 重要 的 是 支持 了 快速 查询 算法 。 

比如 ,Oracle DB 12c553 采 用 了 一 种 分 区 压缩 (In-memory Compressed Unit. IMCU) d£ 
术 ( 图 16-10), 即 对 列 存储 表 中 的 每 一 列 的 值 按照 分 区 算法 进行 分 块 (Partition) ,然后 对 每 
个 分 区 进行 压缩 存储 ,同时 对 每 个 分 区 按照 检索 键 (Storage Index) 进 行 排序 ,并 在 检索 表 中 
记录 每 个 压缩 排序 分 区 的 检索 值 范围 (Min 和 Max) 。 对 于 如 图 16-10 所 示 的 表 , 如 果 需 要 
查询 商店 序号 为 8 的 门店 销售 额 ,可 以 根据 分 区 的 Min 和 Max 范围 值 迅速 找到 ID=8 的 所 
属 分 区 ,然后 对 分 区 数据 解压 , 查 得 该 门店 对 应 的 销售 额 。 





Oracle In-Memory Column Store Storage Index 


Example: Find all sales from stores with a store id of 8 





Each column is made up of 
Memory multiple column units 


* Min/ max value is recorded 
for each column unit in a 
storage index 


* Storage index provides 
partition pruning like 
performance for ALL queries 





图 16-10 Oracle 的 分 区 压缩 (IMCU) 技 术 


4) 无 汇总 表 

无 须 做 数据 融 汇 操作 。 

5) 只 插入 差异 数据 

分 布 式 缓存 系统 还 常常 采用 一 种 只 写 入 差异 数据 技术 来 提高 访问 效率 。 如 图 16-11 所 
示 , 在 内 存 中 划分 两 个 区 域 : 主 表 (Main) 和 差异 表 (Delta)。 主 表 包 含 完整 的 数据 ,采用 高 
度 压缩 的 列 存储 方式 ,支持 高 效率 的 读数 据 操作 ; 差异 表 只 包含 少量 的 新 增 数据 ,支持 写 数 

当 执 行 读 取 数 据 操作 时 ,系统 首先 扫描 主 表 , 如果 没有 发 现 所 需 数据 ,再 扫描 Delta 区 
域 ; 在 执行 写 人 数据 操作 时 ,系统 将 新 数据 插入 Delta 表 , 而 不 是 直接 写 入 主 表 。 由 于 Delta 
表 只 含 少量 数据 项 (实际 上 只 含 增 量 数据 ) ,因此 实现 了 一 种 高 速写 人 方式 。 

一 段 时 间 后 ,系统 会 将 Delta 包含 的 增 量 数据 同步 到 主 表 , 并 进行 主 表 更 新 后 的 压缩 。 
这 一 步骤 与 读 、 写 数据 操作 是 异步 的 ,因此 不 影响 系统 对 高 速 读 写 操作 的 支持 。 这 种 只 写 人 
差异 ( 增 量 ) 数 据 的 技术 实现 了 既 支 持 数据 表 高 度 压 缩 , 又 支持 高 速写 人 的 效果 。 

3. Memcache 工作 机 制 


Memcache 是 一 个 有 代表 性 的 高 性 能 分 布 式 内 存 对 象 缓存 系统 "”, 它 通过 缓存 数据 和 
对 象 来 减少 读 取 数据 库 次 数 ,从 而 提高 数据 库 驱 动 网 站 的 访问 速度 。Memcache 采用 一 组 
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读 取 操 作 
" ” 既 能 读 取 Main 存 储 ， 





也 能 读 取 Delta 存 储 
Delta 合 并 ”| 需要 的 数据 全 部 存储 在 Main Memory， 在 正常 读 取 时 ， 
a 4 不 需要 访问 磁盘 。 在 Commit 的 时 候 ， 会 把 Log 写 入 磁盘 
. 压缩 





图 16-11 只 写 入 差异 数据 机 制 


专用 缓存 服务 器 ,缓存 与 应 用 分 离 部 署 。 在 存放 和 访问 缓存 数据 时 ,应 用 程序 通过 一 致 性 
Hash 算法 选择 缓存 节点 ,集群 缓存 服务 器 之 间 不 通信 ,也 不 需要 数据 同步 。Memcache 的 
计算 架构 见 图 16-12, 其 计算 系统 由 应 用 服务 器 和 缓存 服务 器 集群 组 成 ,应 用 服务 器 上 部 署 
应 用 程序 和 Memcache 客户 端 ,缓存 服务 器 上 部 署 Memcache 服务 器 程序 。 应 用 程序 通过 
Memcache API 向 Memcache 客户 端 提交 访问 任务 ,客户 端 通 过 通信 模块 与 缓存 服务 器 集 
群 连接 ,并 基于 路 由 算法 选择 一 个 Memcache 服务 器 节点 执行 访问 任务 。 
































应 用 程序 。 | 应 用 程序 服务 器 Wt 
Memcache 服 务 器 
ll Memcache 客 户 端 程序 10.0.0.0.:91000 
Memcache API A aes | » 
Memcache 服 务 器 
| 服务 器 列表 | x 10.0.0.0.:91001 
| Nodeo(10.0.0.0:91000) | 
| Nodett1000051001) | SEZA 
Peer | sus | Memcache 服 务 器 
10.0.0.0.:91002 












































图 16-12 Memcache 计算 架构 


Memcache 是 分 布 式 缓存 系统 的 名 称 ,Memcached 是 缓存 服务 器 程序 。 

Memcache 的 分 布 式 计算 架构 可 以 将 在 一 台 机 器 上 的 多 个 Memcached 服务 端 程序 或 
者 分 散 部 署 在 多 个 机 器 上 的 Memcached 服务 端 程序 组 成 一 个 虚拟 的 服务 端 Server, 对 于 应 
用 程序 来 说 完全 屏蔽 和 透明 ,提高 了 单机 内 存 利用 率 , 并 且 提 供 了 优良 的 系统 可 扩展 性 。 下 
面 对 Memcache 机 制 包括 工作 流程 .内存 管理 .路 由 算法 \ 编 程 接口 进行 讨论 。 
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4. 工作 流程 


图 16-13 给 出 了 Memcache 工作 流程 的 详细 描述 ,其 具体 步骤 如 下 。 

CD 当 客 户 端 提交 了 读数 据 请 求 ,首先 扫描 Memcache 看 数据 是 否 存在 ,如 是 ,直接 读 
取 数 据 返回 客户 端 ,不 对 数据 库 做 任何 操作 ,操作 路 径 为 : (DO 9-0. 

(2) 如 果 请 求 的 数据 不 在 缓存 中 , 则 访问 数 
据 库 DB, 把 从 数据 库 中 获取 的 数据 返回 给 客户 








端 ,同时 把 数据 缓存 一 份 到 Memcache 中 M 
(Memcache 客户 端 不 对 此 负责 ,需要 应 用 程序 ns 
明确 实现 ), 操 作 路 径 为 : D—O9-—0-9- 





@ 






>00. Client Web/APP + 

(3) 当 客户 端 提 交 了 写 数据 或 更 新 数据 库 Dade 
请 求 , 更 新 数据 库 的 同时 同步 Memcache, 保 证 
数据 一 致 性 ,操作 路 径 为 : D 0 0-— 
©>0. 

(4) Memcache 的 内 存 空间 满 溢 时 ,使 用 LRU (Least Recently Used) 算 法 及 其 他 失效 
策略 对 缓存 数据 进行 更 换 。 

5. 内 存 管 理 

Memcache 采用 了 一 种 简便 易 行 的 内 存 管理 方式 .所 有 缓存 数据 都 保存 在 内 存 中 ,高速 
读 取 数 据 , 当 内 存 空 间 满 后 ,通过 LRU 算法 自动 删除 不 使 用 的 缓存 。 但 这 套 方法 没有 考虑 
数据 的 容 灾 恢复 问题 ,如 果 重 启 服 务 , 所 有 缓存 数据 都 会 丢失 。 

为 了 避免 内 存 空 间 碎 片 化 ,Memcache 没有 像 malloc() 和 alloc O 函数 那样 根据 用 户 需 
要 自由 开辟 空间 大 小 的 方式 ,而 是 设计 了 一 套 固定 大 小 和 格式 的 内 存 结 构 来 存储 用 户 数据 。 
为 此 ,下 面 首先 建立 几 个 基本 概念 。 

1) Slab 与 Page 

这 是 Memcache 划分 内 存 空间 的 基本 单位 ,默认 大 小 为 MB。Memcache 把 整个 内 存 
空间 按照 Slab 为 单位 进行 管理 的 ,用 一 个 数据 结构 struct slab list 来 定义 一 个 Slab 。 

如 果 Slab 是 内 存 管 理 模型 的 一 个 抽象 概念 , 那 Page 就 是 系统 开辟 内 存 时 与 Slab 对 应 
的 物理 单位 ,可 以 理解 为 内 存 中 实际 开辟 的 空间 ,大 小 与 Slab 一 样 。 

2) Chunk 与 Item 

在 一 个 Slab 内 部 划分 的 更 小 的 存储 单位 。 比 如 ,一 个 1MB 大 小 的 Slab 可 以 划分 为 两 
个 Chunks, 每 个 Chunk 大 小 为 0. 5MB; 也 可 以 划分 为 1024 个 Chunks, ^ Chunk 大 小 则 
为 1KB。Chunk 的 大 小 可 按照 分 割 算法 (在 源 代码 文件 slabs. c 中 ) 选 择 设 定 ,Chunk Size 
默认 值 为 48B。 注 意 设 置 Chunk 大 小 的 值 必须 是 Byte 的 整数 倍 , 而 且 以 增长 因子 (默认 值 
1.25) 的 倍数 增长 。 如 图 16-14 所 示 , 第 一 个 Slab(Class 1) 所 选择 的 Chunk Size 如 果 是 
512B, 则 第 二 个 Slab(Class 2) 选 择 的 Chunk Size 可 以 是 512X1.25 二 640B, 以 此 类 推 。 

如 果 说 Chunk 是 管理 内 存 空间 的 最 小 单位 ,Item 是 要 存 人 Chunk 的 数据 项 ,比如 
PHP 代码 : $ memcached-> set ("name","abc" ,30) ;表示 要 把 一 个 Key 为 name, Value 为 
abc 的 键 值 对 保存 在 内 存 中 30s. Memcached 会 把 这 些 数据 打包 成 一 个 Item, XERE Item 





DB 


图 16-13 Memcache 工作 流程 
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图 16-14 Slab 5 Chunk 


是 以 下 面 的 数据 结构 的 形式 存 人 Chunk。 一 个 Chunk 存储 一 个 Item, 然 后 Memcache 的 内 
存 管理 程序 Slab Allocator 会 基于 Item 来 管理 运行 中 的 内 存 空 间 。 


typedef struct stritem { 
struct stritem * next; 


struct stritem * prev; 
struct stritem * h next; 
rel time t time; 
rel time t exptime; 
int nbytes; 
unsigned short refcount; 
uint8 t nsuffix; 
uint8 t it flags; 
uint8 t slabs clsid; 
uint8 t nkey; 
union ( 

uint64 t cas; 

char end; 
) data[]; 

) item; 


3) Slab Class 


可 以 看 出 ,Memcache 管理 的 


// 链 表 中 下 一 个 ,这 个 链表 有 可 能 是 slots 链表 ,也 有 可 能 是 LRU fik 
// 表 ,但 一 个 item 不 可 能 同时 在 这 两 个 链表 中 ,所 以 复 用 一 个 指针 
// 链 表 中 上 一 个 

// 相 同 hash 值 中 链表 的 下 一 个 

// 最 近 访问 时 间 

// 过 期 时 间 

//value 的 字 节 数 

// 引 用 计数 

// 后 缀 长 度 

// 标 记 

//item 所 在 的 slabclass 的 ID 值 

// 键 长 

// 数 据 存储 的 地 方 


一 个 内 存 空 间 内 可 以 划分 多 个 Slabs, 而 这 些 Slabs 又 可 以 


按照 它们 内 部 设置 的 chunk 大 小 分 为 不 同 的 组 (比如 一 组 Slabs 的 Chunk Size 都 是 512B， 
另 一 组 Slabs 的 Chunk Size 都 是 640B 等 ) ,这 样 的 组 就 称 为 Slab Classo 
一 组 具有 相同 Chunk Size 的 Slabs 用 一 个 slab_list 类 型 的 数组 来 表征 ,这 个 Slab 数组 


由 ** slab list 指针 指向 。 


Memcache 用 如 下 的 数据 结构 slabclass_t 来 管理 内 存 中 的 所 有 Slab Classes; 


typedef struct { 
unsigned int size; 
unsigned int perslab; 
void ** slots; 
unsigned int sl total; 
unsigned int sl curr; 


/* 每 个 item K/h, sizes of items * / 

/* 每 个 page 中 包含 多 少 个 item * / 

/* 空闲 的 item 指针 ,list of item ptrs * / 

/* 以 分 配 空闲 的 item 个 数 ，size of previous array * / 

/* 当前 空闲 的 item 位 置 (也 就 是 实际 空闲 item 个 数 ), 从 后 往 前 


的 ,first free slot */ 
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void * end page ptr; /* 指向 最 后 一 个 页 面 中 空闲 的 item 开始 位 置 ，pointer to next 
free item at end of page, or 0 * / 

unsigned int end page free; / * 最 后 一 个 页 面 , iten 4-3, number of items remaining at end 
of last alloced page * / 


unsigned int slabs; /* 实际 使 用 slab(page) 1 3X how many slabs were allocated for 
this class */ 
void ** slab list; /* 所 有 page 的 指针 ，array of slab pointers * / 
unsigned int list size; /* 已 经 分 配 page 指针 个 数 , size of prev array * / 
unsigned int killing; /* index-*1 of dying slab, or zero if none * / 
size t requested; /* 所 有 被 使 用 了 的 内 存 的 大 小 ,The number of requested bytes * / 
) slabclass t; 


实际 上 ,Memcache 是 用 一 个 数组 slabclass_t[ ] 来 管理 内 存 中 的 Slabs, 如 图 16-15 所 
示 ,slabclass_t [0] 指 向 一 个 Chunk Size— 64B 的 Slab( 包 含 多 个 Chunks) ,slabclass_t [1] 
指向 一 个 Chunk Size=96B 的 Slab.slabclass t [2] 指 向 一 个 Chunk Size— 144B 的 Slab 等 。 


slabclass_t[0] 





Slabs 


CID 一 一 | 六 Slot | Chunk Size: 64B 


Slab list" | L- 














slabclass t[1] 








mum [—] Chunk Size: 96B 
Slab list | I—1 








slabclass t[2] 





Slot wn 
Slab list Chunk Size: 144B 


昌国 区 加 本 加 ada 























图 16-15 Slab 的 Chunk 链表 和 Slot 队列 


每 个 Slab 内 还 包含 一 个 Item 类 型 的 Slot 队列 。 当 一 个 Chunk 被 使 用 完 释 放 后 ,这 个 
Chunk 并 不 归还 给 Slab 的 Chunk 链表 ,而 是 放 入 该 Slab 的 Slot 队列 。 

当 一 个 Item 向 slabclass_t 请 求 内 存 时 ,Memcached 会 先 到 与 Item 大 小 对 应 的 Slab 中 
查看 Slot 是 否 有 空位 ,如 果 有 ,就 从 Slot 中 分 配 ; 如 没有 , 则 从 Slab 的 Chunk 链表 中 分 配 
一 个 没 使 用 的 。 如 图 16-16 所 示 , 蓝 色 Chunk 表示 已 占用 的 ,红色 Chunk 表示 尚未 使 用 的 ， 
系统 用 一 个 指针 变量 end page ptr 总 是 指向 下 一 个 可 用 的 Chunk。 当 用 户 释放 蓝 色 
Chunk 时 ,系统 会 将 它 放 到 slabclasst 的 Slot 里 。 

初始 化 时 ，Memcache 为 每 个 Slab Class 分 配 一 个 Slab, 当 这 个 Slab 内 的 Chunks 使 用 
Ja. Memcache 就 分 配 一 个 新 的 Slab 给 这 个 Class, 所 以 一 个 Slab Class 可 以 拥有 多 个 
Slabs, 这 些 Slab 就 是 通过 slab list 数组 来 管理 的 。 

4) 内 存 回收 的 LRU 算法 

内 存 空间 总 是 有 限 的 , 当 负 载 达到 一 定 状 况 , 所 有 的 Chunks 都 被 占用 了 ,这 时 就 需要 
设计 一 个 算法 来 淘汰 旧 的 Item, 腾 出 空间 接纳 新 的 Iem。Memcache 采用 的 是 LRU(Least 
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slabclass t[0] Slabs 








crm Slot | mg — —1 
Slab list Chunk Size: 64B 


eeen ro 


slabclass t[1] 





























| Slot 
CCD [| slab lisi 
end page ptr 


slabclass t[2] "3 
-Slot 加 本 A 


slab list 
end page ptr. - 





Chunk Size: 96B 















































Chunk Size: 144B 











Hi 16-16 Slab 已 使 用 和 未 使 用 的 Chunks 
Recently Used) 算 法 , 即 从 当前 Item 中 找 出 最 少 使 用 的 那个 淘汰 。 

图 16-17 表示 的 是 一 个 内 存 空 间 内 各 个 Slab Class 的 即时 状态 。 每 个 Slab 的 红色 
Chunks 表示 已 被 占用 空间 ,绿色 Chunk 表示 尚未 使 用 或 已 释放 的 空间 。Memcache 使 用 两 
个 链表 来 支持 一 个 Slab Class 的 LRU 算法 ,由 于 内 存 内 有 多 个 Slab Class, 因 此 Memcache 
需 使 用 多 组 链表 。 


slab_list slabclass[i] 


(tem(Used) ) Chunk(100B) 
ltem(free) Chunk(100B) 
















Item(Free) 

















1MB 的 Slab 
de jig Item(Free) 
I—— 1 slabclass[i*1] 
bead[] tail[7] 
LRU 链 表 





Item(Free) Item(Free) Item(Free) Item(Free) 


图 16-17 内存 回收 的 LRU 链表 


如 图 16-17 所 示 第 i 个 Slab Class 的 LRU 链表 由 Chunks 组 成 ,其 头 和 尾 分 别 由 两 个 
指针 head; fil tail[; bi. head[; ]H& [61 ff BE e ERK ,也 是 最 新 使 用 过 的 Item ,因为 新 的 


Slot: 空闲 Item 
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Item 是 从 链表 头 加 入 。tail[ 让 指向 的 实际 上 是 当前 最 少 使 用 的 Item, 因为 一 个 Item 被 使 用 
过 一 次 , 即 要 移 位 至 表 头 ,链表 重新 排序 ; 另 一 个 链表 则 由 该 Slab Class 的 可 用 Chunks( 绿 
色 ) 组 成 。 

LRU 算法 的 逻辑 如 下 。 

CD 初始 化 slabclass_t[ ] 数 组 ,每 个 元 素 slabclass t[i]fWJ& f [ri] Size 的 Slab Class. 

(2) 每 开辟 一 个 新 的 Slab ,都 根据 其 所 在 的 Slab Class 的 Size 来 分 割 成 Chunk ,分 割 完 
Chunk 之 后 ,把 Chunk 初始 化 成 一 个 个 Free Item ,并 加 入 到 Slot 链表 。 

(3) 我 们 每 使 用 一 个 Free Item 都 会 从 Slot 链表 中 删除 掉 对 应 Item 并 插入 到 LRU 链 
表 相 应 的 位 置 。 

(4) 每 当 一 个 Used Item 被 访问 的 时 候 都 会 更 新 它 在 LRU 链表 中 的 位 置 ,以 保证 
LRU 链表 淘汰 规律 是 从 尾 到 头 是 由 高 到 低 的 。 

(5) 会 有 另 一 个 叫 *Item 疏 虫 ”的 线程 定期 异步 扫描 LRU 链表 ,把 过 期 的 Item 淘汰 掉 ， 
然后 把 空位 重新 插入 到 Slot 链表 中 。 

(6) 当 我 们 需要 内 存 时 ,例如 一 个 SET 命令 , 它 的 一 般 步骤 如 下 。 

(D 计算 出 要 保存 的 Item 的 大 小 ,然后 选择 相应 的 Slab Class; 

@ 从 该 Slab Class 的 LRU 链表 的 尾部 开始 ,尝试 找 几 次 (默认 是 5 次 ) ,看 看 有 没有 过 
期 的 Item, 如 果 有 就 利用 这 个 过 期 的 Item 空间 ; 

© 如 果 没 找到 过 期 Ttem, 则 尝试 去 Slot 链表 中 拿 空 闲 的 Free Item; 

CD 如 果 Slot 链表 中 没有 空闲 的 Free Item. 了 , 则 尝试 申请 内 存 , 开 辟 一 块 新 的 Slab, FF 
辟 成 功 后 ,Slot 链表 就 又 有 可 用 的 Free Item T ; 

© 如 果 开 不 了 新 的 Slab, 说 明 内 存 都 已 用 完 , 只 能 去 淘汰 现 有 的 used item, M LRU fi 
表 尾 部 找 出 最 后 一 个 Item 淘汰 ,然后 作为 Free Item 加 入 Slot 链表 ,然后 就 可 以 使 用 了 。 

6. 数据 存储 的 一 致 性 哈 希 算法 

Memcache 支持 的 缓存 数据 格式 为 键 值 对 , 当 一 个 键 值 对 数据 项 被 Item 提交 给 
Memcached 客户 端 ,需要 写 人 数据 库 和 缓存 区 (内 存 ) 时 ,首先 需要 确定 : 数据 项 应 该 写 人 组 
存 服务 器 集群 哪 一 台 机 器 (节点 )? 如 图 16-18 所 示 , 假 设 有 三 个 节点 在 Memcached 集群 






























































应 用 程序 。 | 应 用 程序 服务 器 id 
Memcache 服 务 器 
Memcache A F NEREYE 10.0.0.0.:91000 

Memcache API A 通信 模块 

Memcache 服 务 器 
服务 器 列表 10.0.0.0.:91001 

Node0(10.0.0.0:91000) 

Node1(10.0.009100) [一 | 路 由 算法 

Node2(10.0.0.0:91002) ss Memcache 服 务 器 
10.0.0.0.:91002 















































图 16-18 数据 存储 的 路 由 算法 
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中 ,需要 有 一 个 数据 存储 分 配 的 路 由 算法 帮助 我 们 把 写 和 的 数据 均衡 地 分 配 到 这 三 台 机 
m. 

需要 注意 的 是 ,Memcached 服务 器 节点 之 间 并 无 通信 ,不 共享 任何 信息 ,它们 只 被 动 地 
接受 和 执行 来 自 于 客户 端的 服务 请 求 , 因 此 Memcache 的 缓存 分 布 模式 不 是 由 服务 器 端 来 
控制 ,而 是 很 大 程度 上 由 客户 端的 数据 存储 路 由 算法 来 实现 。 

把 一 个 数据 项 (其 键 值 可 以 是 一 个 字符 串 ) 要 映射 到 三 个 机 器 节点 上 (Node0,Nodel， 
Node2) ,首先 可 以 采用 最 常见 的 余数 Hash 算法 , 即 首先 计 算 键 值 的 HashCode( 计 算 一 个 
字符 串 的 哈 希 值 有 各 种 算法 5 ) ,然后 依据 下 面 的 格式 计算 选择 的 服务 器 ID: 

服务 器 ID — HashCode Mod 3 
假设 有 一 组 20 个 Items 的 键 值 经 Hash 后 得 到 的 HashCode 值 为 0 一 19, 则 按照 上 述 余数 
Hash 路 由 算法 得 到 的 分 配 映射 表 如 表 16-3 Bron 。 
表 16-3 分配 映 射 表 
Ee 0|1/2/3]4|5|6|7|8,|9 |10|11| 12 |13| M | 15 | 16 | 17 | 18 | 19 
LM. | 
服务 器 ID | 
























































可 发 现 ,Node0、Nodel、Node2 分 别 分 配 了 7、7、6 个 Items, 负 载 分 配 基本 是 均衡 的 。 如 
果 不 考虑 Memcache 缓存 服务 器 集群 扩容 的 情况 ,余数 Hash 算法 能 够 提供 较 好 的 分 配 
结果 。 

但 大 型 企业 门户 网 站 应 用 ,常常 需要 随 着 业务 量 的 上 涨 而 增加 缓存 服务 器 数目 ,这 就 导 
致 了 原 有 的 缓存 映射 关系 大 比例 失效 的 问题 。 比 如 ,我们 把 缓存 服务 器 台数 从 3 增加 为 4， 
增加 后 的 映射 表 如 表 16-4 所 示 。 

表 16-4 ”增加 服务 器 后 的 映射 表 
HashCode 0 1 2 3 4 5 6 T 8 9 |10 |11 |12 |13 |14|15 |16 | 17 | 18 | 19 


Aan Ul le salon TN 52 
服务 器 ID | 








BE OD E | a rct | | 


















































与 前 面 三 台 缓 存 服 务 器 映射 表 比 较 ,可 看 出 ,20 条 数据 中 只 有 6 条 数据 ( 蓝 颜色 , 占 
30%) 保 留 了 原来 的 映射 关系 ,如 果 继 续 增 加 服务 器 台数 ,这 个 保留 比例 会 更 加 下 降 。 这 个 
结果 说 明 ,使 用 余数 Hash 路 由 算法 在 服务 器 扩容 时 会 造成 大 量 数据 在 缓存 区 无 法 正确 命 
中 (不 仅 是 无 法 命中 ,大 量 无 法 命中 的 数据 在 被 移 除 前 还 占据 着 内 存 )。 网 站 业务 中 大 部 分 
的 业务 数据 请 求 事实 上 是 通过 缓存 获取 的 ,只 有 少量 读 操作 会 访问 数据 库 ,因此 数据 库 的 负 
载 能 力 是 以 有 缓存 为 前 提 来 设计 的 。 当 大 部 分 缓存 数据 因 服 务 器 扩容 而 不 能 正确 读 取 时 ， 
这 些 数据 访问 的 压力 就 落 在 了 数据 库 身上 ,这 将 大 大 超过 数据 库 的 负载 能 力 , 严 重 的 可 能 会 
导致 数据 库 宕 机 ,这 个 结果 显然 是 无 法 接受 的 。 上 述 情况 还 会 发 生 在 部 分 服务 器 失效 的 情 
况 , 因 此 需要 能 支持 服务 器 规模 变化 的 更 有 效 的 路 由 算法 。 

目前 Memcache 采用 了 一 致 性 哈 希 算法 (Consistent Hash)。 其 原理 为 通过 一 个 称 作 一 
致 性 Hash 环 的 数据 结构 实现 键 值 对 Key 到 缓存 服务 器 ID 的 Hash 映射 ,这 个 一 致 性 
Hash 环 如 图 16-19 所 示 , 它 跨越 了 长 度 区 间 [0, 2* 一 1]。 我 们 可 以 计算 服务 器 节点 ID 的 


de 大 数据 分 析 与 计算 


HashCode( 也 落 在 [0, 2” —1]K H) ,然后 把 它 定 位 在 这 个 一 致 性 Hash 环 上 某 一 点 (图 中 
Node0 Nodel , Node2 落 在 不 同 的 环 上 不 同位 置 ) 。 


Hash 环 
Node0(10.0.0.0: 91000) 






Node2(10.0.0.0: 91002) 


Node1(10.0.0.0: 91001) 


图 16-19 一致 性 Hash 环 


如 果 有 一 个 数据 项 需要 写 人 缓存 区 ,首先 对 数据 的 Key 值 计 算得 到 其 HashCode( 其 分 
布 也 为 [0, 27 —1p ,然后 根据 这 个 HashCode 值 在 一 致 性 Hash 环 上 顺 时 针 查 找 距离 这 个 
数据 项 最 近 的 服务 器 节点 ,这 即 是 该 数据 项 分 配 去 的 服务 器 节点 。 图 中 的 红色 箭头 表示 有 
两 个 数据 项 映射 到 Node0 , 蓝 色 箭头 表示 有 三 个 数据 项 映射 到 Nodel 等 。 

如 果 Memcached 服务 器 集群 扩容 ,比如 上 例 中 增加 了 服务 器 节点 Node3 , 它 在 一 致 性 
Hash 环 上 的 位 置 比如 说 落 在 Nodel 与 Node2 之 间 的 左下 角 位 置 (如 图 16-20 所 示 ), 这 就 
影响 到 了 原来 映射 到 Node2 的 一 个 数据 项 (绿色 箭头 ) ,现在 就 改 成 映射 到 Node3。 这 说 
明 , 一 致 性 Hash 算法 在 服务 器 扩容 时 一 样 会 影响 到 部 分 映射 关系 ,但 与 余数 Hash 算法 相 
比 , 它 有 以 下 两 个 优势 。 

(1) 扩容 时 ,一致 性 Hash 算法 只 影响 Hash 环 上 新 加 入 节点 与 顺 时 针 方 向 它 身 后 节点 
这 个 区 间 的 数据 项 ,也 即 是 影响 是 局 部 的 而 非 全 局 性 的 ; 

(2) 随 着 节点 数 增加 , 环 上 服务 器 节点 排列 越 来 越 密 ,上 述 受 影响 区 间 会 变 得 越 来 越 
小 , 原 有 了 映射 关系 保持 正确 性 的 概率 越 来 越 大 ,这 就 意味 着 服务 器 规模 扩大 反而 使 得 一 致 性 
Hash 算法 的 结果 倾向 稳定 ,这 是 算法 的 优势 。 


Hash 环 
Node0(10.0.0.0: 91000) 


Node2(10.0.0.0: 91002) 






Node1(10.0.0.0: 91001) 
Node4(10.0.0.0: 91003) 
图 16-20 扩容 后 的 一 致 性 Hash 环 
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另外 一 个 应 用 较 多 的 分 布 式 缓存 系统 是 Redisa9 ,一 个 在 BSD License 下 开源 的 软件 ， 
它 支 持 高 速 缓存 和 消息 队列 代理 ,也 可 用 作 数 据 库 。 另 外 ,Redis 的 数据 结构 丰富 ,支持 字 
符 串 、 哈 希 表 、 列 表 、 集 合 , 有 序 集合 、 位 图 等 数据 类 型 。 在 计算 架构 方面 ,Redis 采用 主 从 
(Master/Slave) 模 式 ,通过 Master( 单 节点 ) 承 担 写 数据 和 Slave( 多 个 节点 ) 承 担 读数 据 来 实 
现 读 写 分 离 模 式 , 提 高 了 运行 效率 。 但 与 Memcache 缓存 节点 之 间 互 不 通信 不 同 ,Redis 的 
Slave 节点 在 系统 启动 时 需要 连接 Master 节点 同步 数据 。 主 从 模式 也 使 得 不 管 是 Master 
还 是 Slave, 每 个 节点 都 必须 保存 完整 的 数据 备份 ,如 果 在 数据 量 很 大 的 情况 下 ,集群 的 扩展 
性 就 会 受 限于 单个 节点 的 存储 能 力 。 


16.2 内存 数据 库 


传统 的 数据 库 管 理 系统 把 所 有 数据 都 存储 在 磁盘 上 进行 管理 ,所 以 称 作 磁盘 数据 库 
(Disk-Resident Database, DRDB) 。 磁 盘 数 据 库 需 要 频繁 地 访问 磁盘 来 进行 数据 的 操作 , 当 
数据 量 很 大 、 磁 盘 1/O 操作 频繁 时 ,会 导致 性 能 瓶颈 问题 , 称 为 磁盘 延 洁 。 除 了 分 布 式 缓存 
系统 技术 之 外 ,另外 一 个 解决 方案 就 是 内 存 数据 库 (Main Memory Database, MMDB) , 即 重 
新 设计 数据 存储 结构 ,把 查询 处 理 、 并 发 控制 与 恢复 的 算法 都 放 入 内 存 中 完成 ,最 大 程度 地 
减少 对 磁盘 的 访问 。 这 类 产品 目前 有 VoltDB55 ,SAP HANAD9 Oracle 1202 等。 

1. 内 存 数据 库 计 算 架构 

一 个 完整 的 数据 库 应 用 系统 计算 架构 见 图 16-21, 它 包含 应 用 层 、 高 速 缓存 层 、 内 存 数 
据 库 层 、 磁 盘 数据 库 层 (持久 性 存储 )4 个 层次 。 应 用 程序 (Application) 运 行 在 应 用 服务 器 
上 ,通过 缓存 系统 客户 端 或 数据 库 连 接 件 与 数据 库 服 务 器 连接 ,获得 数据 服务 ; 高 速 缓存 层 
或 内 存 数据 库 部 署 在 缓存 服务 器 (比如 Mechache) 或 数据 库 服 务 器 上 ,但 它们 的 事务 性 操作 
和 数据 读 取 计 算 均 在 内 存 中 完成 ; 磁盘 数据 库 层 包括 持久 化 存储 的 关系 型 数据 库 或 其 他 类 
型 数据 库 ,部 署 在 数据 库 服务 器 硬盘 上 ,提供 永久 性 数据 存储 和 管理 服务 。 
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图 16-21 完整 的 数据 库 计 算 架 构 
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内 存 数 据 库 与 磁盘 数据 库 的 主要 差异 就 在 于 前 者 读 取 处 理 数据 是 在 主 内 存 中 ,而 后 者 
读 取 的 是 在 磁盘 上 。 

1) 全 内 存 架 构 

为 了 提高 数据 访问 速度 ,一 种 理想 的 模式 是 把 全 部 数据 存储 在 内 存 中 ,所 有 的 数据 计算 
和 事务 性 操作 均 在 内 存 中 完成 ,如 图 16-22 所 示 。 但 这 种 结构 立即 会 带 来 如 下 问题 。 

CD 机 器 主 内 存 空 间 有 限 , 难 以 一 次 性 装载 全 部 的 数据 库 数据 ; 

(2) 内 存 并 非 持久 化 存储 介质 ,一 旦 断 电 或 系统 重启 ,内 存 中 的 数据 就 会 丢失 ; 

(3) 系统 扩展 性 差 , 如 果 加 入 新 的 机 器 ,无 法 立即 对 新 机 器 的 内 存 空间 进行 寻 址 ,需要 
修改 程序 代码 。 

由 于 上 述 原因 ,实际 应 用 中 很 难 使 用 全 内 存 数 据 库 。 后 面 将 介绍 的 RAMCloud 系 
5 771? x 7 if fg — 1 42 e 

2) 读 写 分 离 架 构 

为 了 克服 全 内 存 数据 库 无 法 提供 及 时 的 持久 性 存储 的 缺点 ,我 们 在 系统 中 增加 了 磁盘 
存储 ,但 为 了 提高 数据 访问 速度 ,又 在 内 存 中 另外 实现 了 一 套 存储 结构 或 内 存 数据 库 , 如 
图 16-23 所 示 。 通 过 这 种 两 层 结构 的 读 / 写 分 离 模式 (读数 据 由 内 存 数据 库 承 担 , 内 存 中 找 
不 到 才 去 访问 磁盘 数据 库 ; 写 数 据 则 是 写 入 磁盘 数据 库 ,不 影响 内 存 数据 库 访问 速度 ; 内 
存 数据 库 定 期 与 磁盘 数据 库 同步 ,从 磁盘 数据 库 导入 新 写 入 数据 或 是 把 内 存 计算 结果 持久 
化 到 磁盘 上 ) ,达到 既 能 保证 高 速 访问 速度 ,又 能 持久 化 存储 数据 的 目的 。 
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write | read read 
Disk RDBMS 


Memory RDBMS New Data Access Mode 


Simple Data Access Mode - Direct Memory DB Access 
-Memory DB Access - Async Disk DB Access 
图 16-22 全 内 存 数据 库 架构 图 16-23 读 写 分 离 数据 库 架 构 


这 种 读 写 分 离 结构 数据 库 的 代表 有 两 类 : 一 类 是 以 Memcache 为 代表 的 分 布 式 缓存 系 
统 ,实现 简单 ,扩展 性 好 ,但 编程 复杂 (分 布 式 存储 由 客户 端 程序 实现 ) 、 某 些 场景 下 内 存 使 用 
效率 不 高 ; 另 一 类 是 以 VoltDB、SAP HANA 为 代表 的 内 存 数据 库 , 它 与 底层 文件 系统 结合 
较 好 ,使 用 了 诸如 列 存储 格式 数据 压缩 、 分 区 等 内 存 技术 ,计算 效率 更 高 ,但 技术 复杂 ,目前 
更 多 的 是 成 本 高 昂 的 商业 产品 。 

3) 集群 架构 

为 了 解决 数据 库 的 扩展 性 问题 ,现代 数据 库 系统 越 来 越 多 地 采用 集群 架构 ,如 图 16-24 
所 示 。 集 群 架构 很 好 地 解决 了 数据 库 的 扩容 问题 ,但 集群 中 每 台 机 器 都 是 一 个 有 独立 CPU 
和 独立 内 存 的 节点 ,这 就 需要 部 署 在 集群 节点 上 的 内 存 数据 库 解决 如 下 问题 。 
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(1) 统一 的 内 存 地 址 空间 以 实现 统一 的 数据 存储 格式 ; 
(2) 数据 的 分 区 及 检索 ; 

(3) 多 节点 并 行 计算 模型 ; 

CD 节点 间 通 信 及 计算 同步 (或 异步 ) 。 





Application 




















Memory DB Layer| |Shardl Shard3 
(Memory RDBMS) [Rs | eem 
































Memory DB Sharding 


图 16-24 数据 库 集群 架构 


4) 混合 分 区 架构 

即使 采用 可 扩容 的 集群 架构 仍 需 解决 内 存 数据 持久 化 问题 ,因此 在 集群 分 区 中 采用 混 
合 模式 (Hybrid Shard) , 即 每 个 分 区 由 一 个 内 存 数据 库 节点 和 一 个 MySQL 节点 共同 组 成 。 
原来 一 个 MySQL 节点 承担 的 一 个 水 平分 区 现在 变 成 

H-Shard = MMDB + MySQL 

这 种 混合 分 区 数据 库 架 构 将 形成 水 平方 向 的 多 分 区 、 垂 直方 向 的 二 级 数据 库 (2-Level 
DB) ,如 图 16-25 所 示 。 混 合 分 区 架构 较 好 地 解决 了 数据 库 扩容 与 持久 化 存储 问题 ,分 区 计 
算 模型 能 够 支持 超大 规模 数据 的 并 行 处 理 , 内 存 数 据 库 这 一 层 也 能 保证 高 速 访问 。 但 系统 


结构 和 软件 架构 都 趋 于 复杂 ,开发 成 本 高 。 
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图 16-25 混合 分 区 数据 库 架 构 


2. SAP HANA 内 存 计算 系统 

德国 SAP 公司 的 HANA(High-performance Analytic Appliance) 中 是 一 个 软 硬 件 结 
合 支 持 内 存 计算 模式 的 高 性 能 计算 分 析 平 台 。HANA 的 分 层 计算 模式 如 图 16-26 所 示 , 在 
最 高 层 它 采 用 了 多 CPU 多 节点 高 性 能 集群 来 支持 并 行 计算 模型 ,在 中 间 层 HANA 使 用 了 
内 存 中 的 列 存储 数据 库 来 整合 OLTP(Online Transaction Processing,; 联 机 事务 处 理 ) 和 
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OLAP(Online Analytical Processing. EX BLA) Br 4b BE) ,在 内 存 计 算 中 使 用 了 列 存储 格式 、 数 
据 分 区 与 压缩 .差异 数据 处 理 等 技术 ,提供 一 种 速度 远 远 高 于 传统 关系 型 数据 库 RDBS 的 
数据 服务 。 在 最 低层 HANA 仍然 使 用 传统 的 磁盘 数据 库 来 提供 永久 化 数据 存储 与 管理 
功能 。 





图 16-26 HANA 的 分 层 计 算 模式 


对 应 于 上 述 分 层 计 算 模式 ,HANA 设计 了 如 图 16-27 所 示 的 计算 架构 。 可 以 看 出 ,图 
中 SAP HANA Database 子 系统 主要 提供 数据 存储 、 预 处 理 、 计 算 分 析 、 支 持 行 存储 (Row 
Store) 和 列 存储 (Column Store) 两 种 结构 .事务 处 理 .数据 访问 .持久 化 存储 等 功能 和 服务 。 
除了 数据 持久 化 存储 (Persistent Storage) 这 一 功能 ,其 他 功能 和 操作 都 在 内 存 中 完成 。 
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上 述 HANA 的 内 存 计算 模型 如 图 16-28 所 示 。 查 询 语言 (SQL 、MDX 等 ) 被 转换 成 通 
用 计算 任务 ,再 用 一 个 有 向 图 来 表示 成 计算 模型 (Calculation Model) ,包含 数据 流 的 输入 和 
输出 的 各 种 操作 。 图 16-29 即 是 根据 一 个 SQL 查询 请 求生 成 的 计算 模型 ,包含 join 操作 和 
计算 任务 。 计 算 模 型 可 以 基于 客户 端 (例如 Excel 中 提供 的 MDX) 的 表达 式 灵活 生成 ,可 以 
看 作 是 高 度 优化 的 、 可 重用 的 参数 计算 模式 。 
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图 16-28 HANA 内 存 计算 模型 图 16-29 HANA 计算 有 向 图 


HANA 的 计算 引擎 (Calculation Engine) 是 其 核心 ,负责 解析 并 处 理 对 大 规模 数据 的 各 
类 CRUDQ 操作 ,对 生成 的 计算 模型 赋予 运行 参数 .装载 计算 数据 并 定义 计算 流程 , 它 支持 
SQL 和 MDX 语句 和 SAP/non-SAP 数据 格式 。 

HANA 通过 服务 器 集群 来 提供 系统 高 可 用 性 及 灾 备 功能 。 如 图 16-30 所 示 , HANA 
数据 库 部 署 在 多 个 服务 器 节点 上 ,其 中 包含 备用 节点 (Standby)。 当 工作 服务 器 (例如 
Server'3) 发 生 失效 时 ,备用 服务 器 会 自动 切换 提供 热 灾 备 能 力 。 不 同 节点 间 数 据 库 同 步 和 
通信 依赖 于 硬件 技术 。 

16-31 表示 一 个 组 合 了 5 台 服 务 器 节点 (每 个 节点 4 组 CPU,512GB 内 存 ), 最 后 扩 
容 到 16X10CPU, 内 存 达 到 2TB 的 集群 服务 器 。 
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一 台 主 服务 器 + 三 台 从 服务 器 + 一 台 备 用 服务 器 


16X 10 Cores, 2TB 
扩容 后 的 HANA 服 务 器 集群 


图 16-31 HANA 服务 器 扩容 方案 


16.3 内存 云 MemCloud 


计算 机 传统 的 存储 介质 包括 内 存 (RAM) 、 缓 存 (Cache) 、 磁 盘 (Disk) 三 类 ,根据 存储 访 
问 速 度 不 同 , 传 统计 算 中 把 计算 数据 存储 在 磁盘 上 ,内 存 中 装载 计算 程序 ,而 缓存 只 是 用 于 
存放 少量 高 频 访问 数据 ,改善 系统 响应 特性 。 磁 盘存 储 导致 的 性 能 瓶颈 已 被 证 实 是 大 数据 
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计算 架构 面临 的 主要 问题 , 主 内 存 比 磁盘 高 100 倍 以 上 的 读 写 速度 使 得 研究 开发 人 员 越 来 
越 多 地 把 注意 力 投向 内 存 存 储 与 计算 模式 ,而 近年 来 内 存 硬件 (DRAM) 成 本 日 益 下 降 的 趋 
势 也 使 得 基于 内 存 的 解决 方案 成 为 一 种 可 能 的 选项 。 

内 存 计 算 除 了 前 面 章 节 谈 到 的 分 布 式 缓存 系统 和 内 存 数据 库 解决 方案 之 外 ,美国 斯 坦 
福 大 学 教授 .美国 工程 院 院士 Dr John Ousterhout 提出 的 RAMCloud'" 7? py f£ z; R £i d 
一 个 大 规模 分 布 式 内 存 计算 系统 ,是 一 个 技术 理念 超前 的 方案 。 在 该 设计 方案 中 ， 
RAMCloud 系统 由 上 千 个 存储 服务 器 节点 组 成 ,这 些 服 务 器 由 数据 中 心 的 高 速 网 络 ( 比 如 
Infiniband?? ) 连 接 构成 一 个 内 存 云集 群 。RAMCloud 将 上 千 台 机 器 的 DRAM 构成 一 个 统 
一 寻 址 的 巨大 内 存 空 间 , 将 所 有 的 计算 数据 和 程序 一 次 装载 和 内存, 在 内 存 完成 全 部 计算 。 

1. 计算 体系 架构 

每 个 RAMCloud 节点 的 计算 架构 如 图 16-32 所 示 , 它 包含 Master 和 Slave 两 个 模块 。 

(1) Master 模块 管理 节点 主 内 存 和 存储 在 内 的 RAMCloud Objects, 并 负责 处 理 客户 
端 程序 的 读 写 数据 要 求 ; 

(2) Backup 模块 负责 管理 节点 本 地 磁盘 和 闪存 ,以 及 存储 在 磁盘 上 的 其 他 节点 数据 文 
件 的 副本 。 
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图 16-32 RAMCIoud 系统 架构 


整个 内 存 云集 群 由 一 个 Coordinator 节点 (有 一 个 备用 节点 ) 管 理 ,负责 系统 配置 .用 户 
注册 、 计 算 任务 分 发 等 工作 。 

所 有 计算 数据 和 程序 均一 次 装载 和 人 内存, 节点 磁盘 只 是 作为 备份 数据 存储 , 当 崩 溃 发 生 
时 用 于 失效 恢复 。 

RAMCloud 实际 上 是 采用 了 蜡 构 多 存储 介质 设计 的 高 性 能 分 布 式 内 存 数据 库 系统 。 
它 针 对 异 构 存 储 介质 的 不 同 特性 ,采用 了 所 谓 的 日 志 缓存 (Buffered Log-grog) 9 技术 ,将 
计算 数据 和 程序 放置 在 性 能 最 好 的 内 存 中 ,达到 最 快 计算 效果 ; 而 将 副本 以 及 数据 更 新 日 
志 放 置 在 成 本 较 低 的 缓存 或 磁盘 存储 介质 上 , 既 降低 了 成 本 ,又 保证 了 性 能 。 

2. 数据 存储 架构 

RAMCloud 使 用 简单 的 键 值 对 数据 结构 ,数据 被 封装 为 Object, 每 个 Object 都 被 长 度 
不 一 的 唯一 的 Key 标记 ,是 RAMCloud 处 理 的 基本 数据 单位 ( 即 围绕 Object 的 操作 都 是 原 
子 化 操作 )。Object 的 大 小 介 于 几 十 B 到 1MB 之 间 , 一 般 使 用 较 小 单位 。 多 个 Objects 组 
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成 一 个 Table, 一 个 Table 可 以 有 多 个 副本 存放 在 集群 的 不 同 节点 上 。 图 16-33 描绘 了 
RAMCloud 的 数据 模型 。 

RAMCloud 在 每 个 集群 节点 上 的 Master 程序 管理 着 存放 在 内 存 里 的 一 组 Objects 和 
一 个 哈 希 表 ( 图 16-34), 表 里 面 每 一 条 Entry 都 对 应 着 内 存 里 存放 的 一 个 Object. 
RAMCloud 采用 了 日 志 形 式 的 结构 (Log-structured Memory) 来 划分 内 存 , 即 Object( 数 据 ) 
是 以 日 志 队 列 形 式 存储 在 内 存 里 ,而 且 这 个 队列 是 Append-only 类 型 , 即 新 Object 只 能 添 
加 在 队 尾 ,而 不 是 插入 。 一 个 节点 Master 只 维护 这 样 一 个 内 存 里 的 日 志 队 列 。 
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图 16-33 RAMCloud 数据 模型 图 16-34 节点 存储 结构 


每 个 Object 是 以 一 条 日 志 条 目 (Log Entry) 形 式 存储 在 内 存 里 (图 16-35),Object 日 志 
条 目 值 域 包括 所 属 表 序号 (Table ID) 、 键 值 (Key) AX (Version) .时间 戳 (Timestamp) ,以 
及 数据 区 (Value) 。 在 数据 恢复 时 ,将 根据 最 新 版 本 的 日 志 条 目 数 据 来 重建 Hash Table, 
内 存 里 还 存放 着 以 下 日 志 数据 ,数据 格式 见 图 16-35。 
失效 标志 (Tombstone) : 包含 表 序 号 (Table ID) 、 键 值 (Key) .版 本 (Version) ,分 区 序 
号 (Segment ID) 。 它 代表 了 被 删除 的 Object。 日 志 一 旦 写 入 就 不 可 修改 ,如 果 一 个 Object 
被 删除 ,就 在 日 志 中 添加 一 条 Tombstone 的 记录 ,这 样 将 来 在 数据 恢复 时 ,被 删除 的 Object 
就 不 会 被 重建 。 
分 区 头 (Segment Header): 包含 主 程序 号 (Master ID) .分 区 序号 (Segment ID), 
日 志 摘 要 (Log Digest): 包含 日 志 中 所 有 的 Segment ID。 在 数据 恢复 时 ,将 根据 最 新 
Object 
[able id [ Key [ Version [Timestamp [ Value ] 
Tombstone (identifies dead object) 
Table ld [ key [ Version [ Segment id 
Segment Header 
Log Digest (identifies all segments in log) 
[Segment id | Segment id [ ... [ segment ia ] 
Tablet Statistics 
For each tablet: # log entries, log bytes (compressed) 
Safe Version 


Version # larger than any used on master 
图 16-35 Log 数据 格式 
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的 日 志 摘 要 来 加 载 所 有 的 日 志 数据 。 每 个 节点 的 日 志 摘 要 使 得 节点 恢复 可 以 自我 完成 ,而 
不 需要 有 一 个 保留 所 有 节点 元 数据 的 集群 中 心 节点 的 存在 。 

但 失效 标志 (Tombstone) 也 有 一 个 何 时 被 清除 的 问题 。Tombstone 中 包含 一 个 它 所 代 
表 的 已 删除 的 Object 所 属 的 分 区 号 (Segment ID) ,内 存 清 除 时 (Cleaning) ,清除 程序 会 检查 
Tombstone 所 含 的 Segment 是 否 还 存在 ,若是 否定 , 则 证 明 该 Object 也 已 不 存在 ,该 条 
Tombstone 就 可 以 清除 ; 如 果 Segment 还 在 ,Object 可 能 就 还 没 彻底 清除 ,就 仍 需 保留 这 条 
Tombstone。 

表 统 计 (Tablet Statistics) : 包含 每 个 Tablet 的 统计 数据 。 

安全 版 本 (Safe Version): 比 日 志 中 所 有 已 使 用 的 版 本 号 都 大 的 一 个 版 本 号 。 

Master 程序 在 内 存 中 维护 了 一 个 哈 希 表 来 管理 所 有 Object 的 日 志 条 目 , 哈 希 表 的 每 一 
条 目 (Entry) 都 对 应 着 内 存 中 一 个 存在 的 Object, 哈 希 表 条 目 中 包含 指向 该 Object 的 指针 ， 
只 要 给 了 表 序号 (Table ID) 和 键 值 (Key) ,Master 就 可 以 快速 定位 内 存 中 的 Object. 

内 存 中 的 Log 数据 又 被 划分 为 大 小 为 64MB 的 分 区 (Segment) ,每 个 Segment. 又 生成 
两 三 个 副本 ,分散 存储 在 集群 中 其 他 节点 上 ,这 是 RAMCIoud 提供 的 数据 备份 和 容错 机 制 。 
注意 ,Segment 的 副本 并 不 是 存放 在 其 他 节点 的 内 存 中 ,而 是 持久 化 存储 在 当地 磁盘 上 ,由 
Backup 程序 管理 。 这 些 备份 Segment 平时 并 不 使 用 (磁盘 1/0 速度 太 慢 ), 只 是 用 于 灾 备 
恢复 。 而 且 在 数据 恢复 时 读 取 磁 盘 上 的 备份 日 志 数据 也 不 是 分 条 读 取 ,而 是 一 次 读 取 Log 
全 部 数据 。 

3. 内 存 清除 机 制 

内 存 空间 在 使 用 一 段 时 间 后 ,不 可 避免 地 有 一 些 Log 会 失效 ,一 些 Log 的 空间 没有 使 
用 完 , 即 所 谓 的 内 存 碎片 化 (Memory Fragmentation) ,由 于 内 存 空 间 非 常 宝贵 ,RAMCloud 
设计 了 一 套 内 存 清除 (Cleaning) 机 制 来 有 效 地 使 用 和 管理 内 存 。 内 存 清 除 流程 分 为 以 下 三 
步 ( 图 16-36) 。 

CD 找 出 空余 有 大 量 多 余 内 存 空间 的 分 区 (Segment); 

(2) 将 多 个 Segments 内 包含 的 仍 有 效 的 Log 迁移 (Copy) 到 同一 处 ,一 个 空白 Segment 
填 满 了 后 再 开启 下 一 个 ; 

G) 将 数据 已 迁移 的 Segments 占用 的 内 存 释 放 。 


1. Pick segments with lots of free space: 

















2. Copy live objects (survivors): 
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3. Free cleaned segments (and backup replicas) 
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Cleaning is incremental 


图 16-36 内存 清除 流程 
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内 存 清除 操作 不 得 不 考虑 到 效率 问题 , 当 内 存 使 用 率 低 时 (有 较 多 空余 内 存 空 间 ) ,进行 
内 存 清除 工作 有 较 高 收益 ; 内 存 使 用 率 高 时 (空余 内 存 空间 已 很 小 ) ,内 存 清除 的 收益 就 很 
低 。 表 16-5 给 出 了 不 同 使 用 率 下 内 存 清除 的 效率 。 可 以 看 出 : 对 于 内 存 使 用 率 较 低 
(50%) 的 情形 ,清除 效率 可 达到 100% , 即 每 迁移 1B 数据 就 释放 了 1B 的 内 存 空间 ; 而 对 于 
内 存 使 用 率 高 (90%) 的 情形 ,清除 效率 只 有 11%, 即 每 迁移 9B 才 释 放 了 1B 的 空间 ; 当 使 
用 率 达 到 99% 时 ,清除 效率 仅 为 1%, 即 每 迁移 100B 才 释 放 了 1B 的 空间 。 这 一 数据 告诉 
我 们 ,Log 数据 在 各 个 集群 节点 上 分 布 的 均衡 状态 将 极 大 地 影响 到 内 存 的 清除 效率 。 随 着 
内 存 利用 率 的 上 升 ,清除 回收 的 成 本 也 越 来 越 大 。 
X165 内存 清除 效率 
Segment 中 仍 有 效 的 Log 的 百分比 U 50% 90% 99% 
需要 迁移 的 百分比 U 50% 90% 99% 


释放 的 百分比 (1 一 U) 50% 10% 1% 
清除 效率 =(1 一 U)/U 100% 11% 1% 


























另外 尚 需 注意 到 RAMCloud 在 Master 内 存 和 Backup 磁盘 上 保留 了 两 套 Segment 体 
系 ,因此 ,清除 工作 也 需要 对 两 套 体系 完 成 。 早 期 的 RAMCloud 对 内 存 和 磁盘 的 清除 工作 
是 结合 在 一 起 进行 的 ,但 发 现 的 一 个 问题 是 , 当 内 存 使 用 率 高 时 (80% 一 90%) ,与 内 存 清除 
同时 进行 的 磁盘 清除 占用 了 大 量 的 网 络 带 宽 ( 这 时 磁盘 使 用 率 也 高 ,迁移 数据 需要 很 大 的 开 
销 ) ,影响 了 集群 写 人 数据 (Write Data) 的 效率 (Throughput) 。 

但 RAMCloud 的 设计 目标 是 达到 内 存 高 使 表 16-6 内 存 与 磁盘 性 能 对 比 
用 率 的 同时 ,也 要 有 较 高 的 写 数 据 效率 (Wirite Space PEERS 





Throughput)。 对 比 内 存 与 磁盘 的 性 能 特点 - 站 
( 表 16-6) 可 看 出 ,内 存 空间 昂贵 ,但 读 写 带宽 足 M | ia sid cheap 
够 ; 磁盘 存储 空间 廉价 富余 ,但 带宽 有 限 。 因 此 ， Pk iid sd 
把 性 能 特点 相差 悬殊 的 两 种 存储 结构 放 在 一 个 清 

除 流 程 中 难 达到 理想 效果 。 

为 此 ,RAMCloud 设计 了 一 个 如 下 的 Two-level Cleaning 机 制 ( 图 16-37) 。 

(1) First-level Cleaning: Segment Compaction( 分 区 压缩 ) 。 在 此 阶段 清除 线程 只 对 内 
存 内 Segment 内 部 的 Logs 进行 清理 和 压缩 ,释放 清除 后 的 内 存 空间 供 再 次 使 用 。 注 意 ,此 
阶段 并 未 改变 内 存 里 的 Log 和 Segment 组 成 , 哈 希 表 中 仍 映 射 了 各 个 Log 和 Segment, 只 
是 改变 了 部 分 存储 位 置 ,不 缩 了 空间 。 在 此 阶段 不 做 磁盘 清除 ,以 保证 磁盘 写 数 据 的 带宽 。 
从 图 16-37 可 看 出 ,第 一 阶段 清除 后 的 内 存 Segment 状态 与 磁盘 上 的 Backup Segment 状态 
不 一 致 。 

(2) Second-level Cleaning: Combined Cleaning( 综 合 清除 ) 。 同 时 清除 多 个 Segments, 
并 进行 磁盘 清除 .同步 。 由 于 这 之 前 内 存 Segment 已 经 过 压缩 清理 ,因此 这 一 阶段 的 操作 
不 会 占用 过 多 网 络 或 磁盘 L/O 带宽 ,不 会 对 正常 的 写 人 操作 带 来 太 大 影响 。 

第 一 阶段 的 Segment Compaction 也 带 来 两 个 问题 : 一 是 部 分 Segment 的 Logs 被 迁移 
后 ,原来 占用 的 空间 被 释放 ,此 Segment 不 能 再 使 用 ,可 在 Compact 操作 之 前 就 连接 使 用 这 
个 Segment 的 工作 线程 该 怎么 办 ? RAMCloud 采用 的 方法 是 ,即使 压缩 了 这 个 Segment, 
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图 16-37  Two-level Cleaning 





也 并 不 马上 释放 它 的 空间 ,直到 连接 这 个 Segment 的 所 有 RPC 关闭 后 (意味 着 所 有 相关 线 
程 连接 结束 ) , 才 释 放 这 一 空间 。 

第 二 个 问题 是 Segment 被 压缩 后 实际 使 用 的 空间 远 小 于 原来 分 配 的 固定 空间 
(64MB) ,如 果 让 压缩 后 的 Segment 仍 保 有 这 个 空间 大 小 ,势必 造成 大 量 的 空间 碎片 和 浪 
费 。 为 此 ,RAMCloud 又 提出 了 Seglet 的 概念 , 即 Segment 可 进一步 划分 为 64KB( 或 者 
128KB) 大 小 的 Seglets ,压缩 后 的 Segment 不 再 是 固定 长 度 64MB, 而 是 变化 长 度 的 不 同 数 
ftf Seglets。 划 分 为 Seglet 后 仍然 有 碎片 问题 ,但 一 个 Segment. 内 部 最 多 可 产生 1/2 
Seglet 的 碎片 ,其 比例 下 降 为 32KB/64MB20. 5% 。 

采用 Seglet 带 来 的 另 一 问题 是 Log 现在 变 得 不 连续 了 ,因为 Log 有 可 能 跨越 多 个 
Seglets,RAMCloud 又 使 用 了 额外 的 机 制 来 处 理 这 种 情况 。 

4. Cleaner 触发 机 制 

Two-level Cleaning 方式 引入 了 一 个 新 的 问题 : 什么 时 候 该 选择 启动 Segment 
Compaction? 什么 时 候选 择 Combined Cleaning? 这 个 选择 将 极 大 地 影响 系统 性 能 ,因为 
Combined Cleaning 要 占用 系统 宝贵 的 Disk I/O 和 Network I/O 资源 。 执 行 这 个 选择 的 模 
块 称 为 Balancer, 其 工作 机 制 如 下 。 

早 启动 Cleaner 的 效果 不 会 比 晚 启动 好 ,因为 晚 启动 Cleaner ,内存 和 磁盘 中 会 积累 更 
多 的 已 删 Object、 更 多 的 碎片 ,可 回收 更 多 的 空间 资源 。 那 么 Balancer 如 何 判断 内 存 的 剩 
余 空间 已 不 足 需 要 启动 Cleaner 呢 ? Balancer 通过 以 下 公式 进行 判断 。 

假设 工 代表 仍 在 使 用 的 Object(Live Object) 所 占用 的 空间 比率 ,下 代表 尚未 使 用 的 
Seglet 占 空间 的 比率 ,那么 当 F 入 min(0.1, (1 一 L)/2) 时 就 要 启动 Cleaner 开始 工作 了 。 换 
名 话说 ,Cleaner 启动 的 条 件 是 要 么 可 用 空间 已 低 至 10% ,要 么 能 够 用 于 安置 Seglet 的 空间 
不 到 可 用 空间 的 一 半 。 这 个 触发 条 件 使 得 一 方面 尽量 延 后 Cleaner 启动 使 得 清除 回收 工作 
更 有 效率 , 另 一 方面 当 预 测 到 系统 有 可 能 会 耗 尽 内 存 时 ,立即 启动 Cleaner 以 保证 有 更 多 的 
内 存 可 以 使 用 。 
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那么 是 选择 Segment Compaction ,还 是 选择 Combined Cleaning? 通常 情况 下 会 优先 
考虑 Segment Compaction ,因为 它 更 有 效率 。 但 是 有 两 种 情况 须 启 动 Combined Cleaning: 
第 一 个 情况 是 Tombstone 太 多 了 ,因为 Segment Compaction 是 不 能 单独 把 Tombstone 标 
记 的 Log 删除 的 , 必须 等 这 些 Log 从 磁盘 Backup 中 删除 后 才 可 以 删除 内 存 中 的 
Tombstone。 当 内 存 里 的 Tombstone 积累 得 越 来 越 多 ,使 得 内 存 占 用 率 越 来 越 高 ,导致 
Compaction 越 来 越 低 效 ,最 终 必须 选择 Combined Cleaning 使 得 系统 可 以 删除 那些 
Tombstone, 使 得 以 后 的 Compaction 更 高 效 。 

但 如 何 计算 Tombstone JEENE? Balancer 通过 以 下 公式 : 假设 工 代 表 Live Tombstone 
所 占用 的 空间 比率 ,L 仍然 是 Live Object 使 用 的 空间 比率 , 则 判断 条 件 为 : T/ (1 — L) 274096. 
也 即 是 说 , 当 Tombstone 占用 可 用 空间 达到 或 超过 40 75 的 时 候 , Balancer 就 会 启动 
Combined Cleaning 清除 这 些 Tombstone,40% 是 通过 不 同 条 件 不 同 的 负载 下 测试 得 出 的 经 
验 值 。 从 这 个 公式 也 可 看 出 ,在 有 很 多 小 文件 的 场景 下 ,Combined Cleaning 会 频繁 地 使 用 。 

第 二 个 原因 就 是 磁盘 上 数据 太 多 时 ,为 了 防止 磁盘 空间 耗 尽 导致 系统 恢复 时 重建 ,也 会 
启动 Combined Cleaning, 

5. 并 行 清除 模式 

Two-level Cleaning 机 制 虽然 解决 了 内 存 和 磁盘 的 清除 工作 影响 磁盘 写 数据 操作 的 问 
题 ,但 增加 一 步 Segment Compaction 操作 仍 带 来 了 性 能 的 损失 。 为 此 ,RAMCloud 使 用 了 
多 线程 的 Cleaner 来 充分 利用 多 核 多 节点 集群 实现 并 行 处 理 模式 。 由 于 存储 数据 采用 了 
Log 结构 , Cleaner 在 进行 数据 迁移 压缩 时 不 用 担心 Object 的 数据 被 修改 。 另 外 , Hash 
Table 包含 指向 Object 的 指针 ,因此 Object 迁移 后 Cleaner 只 需 更 新 Hash Table 对 应 的 指 
针 , 即 可 实现 重新 定位 。 这 就 使 得 Cleaner 迁移 Object 和 释放 空间 的 操作 十 分 简单 。 

工作 线程 (Service Thread) 在 处 理 读 写 数据 请 求 时 可 能 与 执行 迁移 Object 的 Cleaning 
Thread 发 生 冲突 ,此 时 需 注 意 以 下 三 点 。 

(1) Service Thread 和 Cleaning Thread 都 是 在 Log Head 添加 数据 ; 

(2) Service Thread 和 Cleaning Thread 可 能 在 更 新 哈 希 表 时 发 生 互 斥 ; 

(3) Cleaning Thread 不 能 释放 那些 Service Thread 仍 在 使 用 的 Segments, 

上 述 问 题 的 解决 办 法 如 下 。 

对 于 Service Thread 处 理 写 数据 请 求 与 Cleaning Thread 迁移 数据 发 生 冲 突 的 问题 (两 
种 都 需要 在 Log Head 处 添加 数据 ),RAMCloud 的 解决 方案 是 ,每 个 Cleaning Thread 自己 
开辟 一 个 新 的 Segment 用 于 迁移 数据 (多 个 Cleaning Thread 开辟 新 Segment 需要 同步 )， 
而 service thread 仍然 使 用 Log Head 添加 数据 。 当 迁移 数据 完成 后 ,Cleaning Thread 会 把 
这 些 Segment 放 到 下 一 个 Log Digest 中 ,即将 这 些 Segments 加 入 Log, 同 时 已 被 回收 的 
Segments 也 会 在 Log Digest 新 版 本 中 删除 。 将 这 些 数据 迁移 到 新 的 Segment 而 不 是 Log 
Head 中 还 有 一 个 好 处 : 这 些 Segments 可 以 备份 到 不 同 的 磁盘 中 ,可 以 提高 Master f 4E 
吐 量 。 

上 述 Service Thread 的 迁移 工作 流程 见 图 16-38. 

在 哈 希 表 处 ,Service Thread 5 Cleaning Thread 会 发 生 同步 问题 。Service Thread iili 
过 哈 希 表 来 读 取 或 者 删除 某 个 Object. 而 同时 Cleaning Thread 使 用 哈 希 表 去 确定 某 个 
Object 是 否 Alive. 并 通过 哈 希 表 条 目 包 含 的 指针 获得 指向 该 Object 的 地 址 。 如 果 该 





第 16 章 内 存 计算 模式 ns 





Log Head 


新 开辟 
LOEO Segments 


Log Head 


加 入 新 Segments 后 ，Log Head 


图 16-38 迁移 工作 流程 




















Object 是 Alive 的 ,Cleaning Thread 将 用 该 Object 迁移 后 的 新 地 址 来 更 新 哈 希 表 的 相应 条 
目 。 目前 ,对 于 Service Thread 与 Cleaning Thread 的 这 个 冲突 ,RAMCloud 是 用 哈 希 表 分 
段 (Bucket) 的 细 粒 度 锁 来 解决 ,希望 下 一 步 提供 成 本 更 低 的 方案 。 


16.4 Spark 内 存 计算 


Spark" 妇 是 美国 加 州 大 学 伯克利 分 校 AMP Lab 在 2009 年 提出 的 一 个 基于 内 存 计算 
的 开源 大 数据 分 布 式 并 行 计算 框架 。2013 4E 6 月 成 为 Apache 孵化 项 目 ,2014 4E 2 月 成 为 
Apache 正式 项 目 , 如 今 已 成 为 Apache 开源 软件 组 织 最 重要 的 三 大 分 布 式 计算 系统 之 一 
(Hadoop、Spark、Storm)。2014 年 以 来 ,Cloudera、MapR(Intel 等 公司 加 入 了 Spark 的 开 
A. Spark 被 看 作 是 继 Hadoop/MapReduce 之 后 的 新 一 代 大 数据 计算 平台 ,提供 了 比 
Hadoop/MapReduce 更 快 , 效 率 更 高 ,支持 更 多 计算 模型 的 处 理 能 力 。 

Spark 的 生态 系统 见 图 16-39。 可 以 看 出 ,Spark 在 持久 层 利用 了 Hadoop/ HDFS 成 熟 
的 分 布 式 存储 系统 ,并 使 用 Mesos 或 YARN 作为 集群 资源 调度 器 ,在 与 MapReduce 批 处 
理 模型 兼容 的 同时 , Spark 基于 核心 库 (Spark Core) 提 供 了 自己 的 支持 流 计算 (Spark 
Streaming) ,图 并 行 处 理 (GraphX) .机 器 学 习 (MLBase)、SQL 查询 引擎 (Shark SQL) 等 一 
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图 16-39 Spark 生态 系统 (Ecosystem) 
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系列 计算 工具 。 其 中 最 重要 的 是 支持 内 存 计算 的 Spark Cores Spark 生态 系统 中 各 个 子 系 
统 或 工具 的 作用 如 下 。 

1. 内 存 计算 Spark Core 

提供 有 向 无 环 图 (DAG) 的 分 布 式 并 行 计 算 框架 ,支持 内 存 多 次 选 代 计 算 和 数据 共享 ， 
大 大 减少 了 和 迭代 计算 之 间 L/O 的 开销 ,这 对 于 需要 进行 多 次 迭代 的 数据 计算 性 能 有 很 大 提 
升 。Spark 引入 了 RDD( Resilient Distributed Dataset) 的 数据 抽象 模型 , 它 是 一 组 分 散 存 储 
在 集群 节点 上 的 分 片 数据 对 象 集合 ,这 些 集合 是 弹性 的 ,如 果 数 据 集 一 部 分 丢失 , 则 可 以 根 
据 “ 血 缘 ”(Lineage) 对 它们 进行 重建 ,保证 了 数据 的 高 容错 性 。 

移动 计算 而 非 移动 数据 ,RDD 分 片 可 以 就 近 读 取 分 布 式 文件 系统 中 的 数据 块 到 各 个 节 
点 内 存 中 进行 计算 。 使 用 多 线程 池 模 型 来 减少 Task 启动 开销 。 采 用 容错 的 、 高 可 伸缩 性 
的 akka 作为 通信 框架 。 

2. 流 计算 Spark Streaming 

计算 流程 : Spark Streaming 是 将 流 式 计算 分 解 成 一 系列 短小 的 批 处 理 作业 ,也 就 是 把 
输入 数据 流 按照 Batch Size( 如 1s) 分 成 一 段 一 段 的 数据 (Discretized Stream) ,每 一 段 数据 
都 转换 成 Spark 中 的 RDD(Resilient Distributed Dataset) ,然后 将 Spark Streaming 中 对 
DStream 的 Transformation 操作 变 为 针对 Spark 中 对 RDD 的 Transformation 操作 ,将 
RDD 经 过 操作 变 成 中 间 结果 保存 在 内 存 中 ,Spark 流 计算 引擎 根据 需求 可 以 对 中 间 的 结果 
进行 全 加 或 者 存储 到 外 部 设备 ,图 16-40 显示 了 Spark Streaming 计算 流程 。 
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图 16-40 Spark Streaming 计算 流程 


实时 处 理 : Spark Streaming 将 流 式 计 算 分 解 成 多 个 Spark Job ,对 于 每 一 段 数据 的 处 
理 都 会 经 过 DAG 分 解 以 及 Spark 的 任务 集 的 调度 过 程 。 对 于 目前 版 本 的 Spark Streaming 
而 言 , 其 最 小 的 Batch Size 的 选取 在 0. 5 一 2s 之 间 (Storm 目前 最 小 的 延迟 是 100ms 左右 )， 
所 以 Spark Streaming 能 够 满足 除 对 实时 性 要 求 非常 高 (如 高 频 实 时 交易 ) 之 外 的 所 有 流 式 
准 实时 计算 场景 。 

容错 性 : 对 于 流 式 计算 来 说 容错 性 至 关 重 要 。Spark 中 每 一 个 RDD 都 是 一 个 不 可 变 
的 分 布 式 可 重 算 的 数据 集 , 其 记录 着 确定 性 的 操作 继承 关系 ,所 以 只 要 输入 数据 是 可 容错 
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的 ,那么 任意 一 个 RDD fff 4 IX (Partition) 出 错 或 不 可 用 ,都 是 可 以 利用 原始 输入 数据 通过 
转换 操作 而 重新 算出 的 。 

3. SQL 查询 Spark SQL 

Spark SQL 的 前 身 是 Shark ,也 即 Hive on Spark ,本质 上 是 通过 Hive 的 HQL 语句 解 
析 , 把 HQL 翻译 成 Spark 上 的 RDD 操作 ,然后 通过 Hive 的 Metadata 获取 数据 库 里 的 表 
信息 ,实际 HDFS 上 的 数据 和 文件 ,会 由 Shark 获取 并 放 到 Spark 上 运算 。Shark 的 最 大 特 
性 就 是 快 和 与 Hive 的 完全 兼容 , 且 可 以 在 Shell 模式 下 使 用 rdd2sql() 这 样 的 API, 把 HQL 
得 到 的 结果 集 ,继续 在 Scala 环境 下 运算 ,支持 自己 编写 简单 的 机 器 学 习 或 简单 分 析 处 理 函 
数 ,对 HQL 结果 进一步 分 析 计算 。 

在 2014 年 7 月 的 Spark Summit 上 ,Databricks 宣布 终止 对 Shark 的 开发 ,将 重点 放 到 
Spark SQL 上 。Databricks 表示 ,Spark SQL 将 涵盖 Shark 的 所 有 特性 ,用 户 可 以 从 Shark 
0. 9 进行 无 颖 升级 。Spark SQL 允许 开发 人 员 直 接 处 理 RDD, 同 时 也 可 查询 例如 在 Apache 
Hive 上 存在 的 外 部 数据 。Spark SQL 的 一 个 重要 特点 是 其 能 够 统一 处 理 关 系 表 和 RDD， 
使 得 开发 人 员 可 以 轻松 地 使 用 SQL 命令 进行 外 部 查询 ,同时 进行 更 复杂 的 数据 分 析 。 

4. 图 计算 GraphX 

GraphX 是 Spark 用 于 图 算法 和 图 并 行 计算 的 API, 可 看 作 是 GraphLab 和 Pregel 在 
Spark 上 的 重 写 及 优化 。 跟 其 他 分 布 式 图 计算 框架 相 比 ,GraphX 最 大 的 贡献 是 ,在 Spark 
之 上 提供 一 站 式 数据 解决 方案 ,可 以 方便 且 高 效 地 完成 图 计算 的 一 整套 流水 作业 。GraphX 
的 核心 抽象 是 Resilient Distributed Property Graph. 一 种 点 和 边 都 带 属 性 的 有 向 多 重 图 。 
它 扩 展 了 Spark RDD 抽象 模型 ,有 Table 和 Graph 两 种 视图 ,而 只 需要 一 份 物 理 存储 。 两 
种 视图 都 有 自己 独 有 的 操作 符 ,从 而 获得 了 灵活 操作 和 执行 效率 。GraphX 的 代码 非常 简 
洁 , 核 心 代码 只 有 三 千 多 行 。GraphX 的 计算 架构 如 图 16-41 所 示 , 其 中 大 部 分 的 实现 都 是 
围绕 Partition 的 优化 进行 ,这 在 某 种 程度 上 说 明了 点 分 割 的 存储 和 相应 的 计算 优化 是 图 计 
算 框架 的 重点 和 难点 。 
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图 16-41 GraphX 计算 架构 
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5. 机 器 学 习 MLBase 


MLBase 是 Spark 生态 圈 的 支持 机 器 学 习 的 组 件 , 让 机 器 学 习 的 门槛 更 低 , 让 一 些 可 能 
并 不 深入 了 解 机 器 学 习 的 用 户 也 能 方便 地 使 用 MLBase。MLBase 分 为 4 部 分 : MLlib、 
MLI、ML Optimizer 和 MLRuntime, 其 架构 如 图 16-42 所 示 。 


ET 






图 16-42 机 器 学 习 组 件 MLBase 架构 


(1) ML Optimizer 会 选择 它 认为 最 适合 的 已 经 在 内 部 实现 好 了 的 机 器 学 习 算 法 和 相 
关 参 数 , 来 处 理 用 户 输入 的 数据 ,并 返回 模型 或 别 的 帮助 分 析 的 结果 ; 

(2) MLI 是 一 个 进行 特征 抽取 和 高 级 ML 编程 抽象 的 算法 实现 的 APT 或 平台 ; 

(3) MLlib 是 Spark 实现 一 些 常 见 的 机 器 学 习 算 法 和 实用 程序 ,包括 分 类 、 回 归 、 聚 类 、 
协同 过 滤 、 降 维 以 及 底层 优化 ,该 算法 可 以 进行 可 扩充 ; MLRuntime 基于 Spark 计算 框架 ， 
将 Spark 的 分 布 式 计算 应 用 到 机 器 学 习 领 域 。 

6. 数据 表达 SparkR 

SparkR 是 AMPLab 发 布 的 一 个 R 开发 包 , 使 得 R 摆脱 单机 运行 的 命运 ,可 以 作为 
Spark 的 job 运行 在 集群 上 , 极 大 地 扩展 了 R 的 数据 处 理 能 力 。SparkR 具有 如 下 几 个 
特性 。 

CD 提供 了 Spark 中 弹性 分 布 式 数据 集 (RDD) 的 API, 用 户 可 以 在 集群 上 通过 R Shell 
交互 地 运行 Spark Job; 

(2) 支持 列 序 化 闭 包 功 能 ,可 以 将 用 户 定义 函数 中 所 引用 到 的 变量 自动 序列 化 发 送 到 
集群 中 其 他 的 机 器 上 ; 

(3) SparkR 还 可 以 很 容易 地 调用 R 开发 包 , 只 需要 在 集群 上 执行 操作 前 用 
includePackage 读 取 R 开发 包 就 可 以 了 ,当然 集群 上 要 先 安装 R 开发 包 。 

SparkR 的 数据 流 见 图 16-43。 
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图 16-43 SparkR 的 数据 流 
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7. 分 布 式 文件 系统 Tachyon 


Tachyon 是 一 个 高 容错 的 分 布 式 文件 系统 ,允许 文件 以 内 存 的 速度 在 集群 框架 中 进行 
可 靠 的 共享 ,就 像 Spark 和 MapReduce 那样 。Tachyon 工作 集 文件 缓存 在 内 存 中 ,并 且 让 
不 同 的 Jobs/Queries 以 及 框架 都 能 以 内 存 的 速度 来 访问 缓存 文件 。 因 此 , Tachyon 可 以 
减少 那些 需要 经 常 使 用 的 数据 集 通 过 访问 磁盘 来 获得 的 次 数 。Tachyon 兼容 Hadoop, I 
有 的 Spark 和 MR 程序 不 需要 任何 修改 即 可 在 Tachyou 上 运行 。Tachyon 的 几 个 特性 
in. 

D JAVA-like File API 

Tachyon 提供 类 似 Java File 类 的 API。 

2) 兼容 性 

Tachyon 实现 了 HDFS 接口 ,所 以 Spark 和 MapReduce 程序 不 需要 任何 修改 即 可 
运行 。 
30 可 搬 拔 的 底层 文件 系统 
Tachyon 是 一 个 可 搬 拔 的 底层 文件 系统 ,提供 容错 功能 。Tachyon 将 内 存 数据 记录 在 
底层 文件 系统 。 它 有 一 个 通用 的 接口 ,使 得 它 可 以 很 容易 地 被 插入 到 不 同 的 底层 文件 系统 。 
目前 支持 HDFS,S3.GlusterFS 和 单 节点 的 本 地 文件 系统 ,以 后 将 支持 更 多 的 文件 系统 。 

下 面 重点 介绍 Spark Core 的 计算 架构 .数据 
模型 ,及 工作 机 制 。 

1. 计算 架构 

Spark 是 一 个 运行 在 集群 架构 上 的 高 性 能 分 
布 式 计算 平台 ,其 系统 架构 仍 采用 了 Master/ Worker Worker 
Slave 结构 , 即 集群 由 一 个 主 节点 (Master) 和 多 
个 从 节点 (Worker) 组 成 , Master 作为 整个 集群 
的 控制 节点 ,负责 整个 集群 的 运行 管理 , Worker 
作为 计算 节点 接受 主 节点 命令 并 报告 本 节点 状 
态 ,Master 节点 与 Worker 节点 之 间 通 过 高 速 网 
络 连 接 , 如 图 16-44 所 示 。 

部 署 在 这 些 集群 服务 器 节点 (硬件 ) 之 上 的 是 Spark 分 布 式 计算 系统 的 各 个 功能 组 件 
(软件 ) ,包括 : Client (客户 端 ), Driver( 应 用 主 控 程序 ), Mesos 或 YARN (集群 资源 管理 
器 ) ,Executor( 运 行 在 Worker 上 的 执行 程序 ) ,Task( 并 行 处 理 线程 ) 等 ,如 图 16-45 所 示 。 

系统 软件 (功能 组 件 ) 到 系统 硬件 (服务 器 ) 的 部 署 对 应 关系 (也 即 软 件 组 件 到 服务 器 节 
点 的 映射 关系 ) 如 下 。 

主 节点 (Master) : 部 署 有 ClusterManager(Standalone 模式 是 Master 程序 ,分 布 式 模 
式 是 YARN 的 ResourceManager) 。 

工作 节点 (Worker) : 部 署 有 YARN 的 NodeManager, ApplicationMaster, Executor, VA 
及 由 Executor 启动 的 Task 线程 。 

客户 端 节点 (Client) : 应 用 程序 Application 。 

Spark 应 用 主 程序 Driver( 包 含 DAGScheduler, TaskScheduler, SparkEnv, RDD DAG 
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图 16-44 Spark 系统 架构 
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图 16-45 Spark 计算 架构 


等 ) 的 部 署 方 式 比较 灵活 ,与 下 面 的 Spark 运行 模式 有 关 。 

2. 运行 模式 

Spark 的 运行 模式 多 样 灵活 , 既 有 单机 运行 模式 ,也 有 分 布 式 运行 模式 ,取决 于 应 用 程 
序 计算 的 需要 。 集 群 的 资源 调度 服务 可 以 使 用 外 部 的 集群 资源 调度 框架 (如 YARN 或 
Mesos) ,也 可 以 使 用 Spark 内 含 的 Standalone 模式 调度 功能 。 目 前 ,Spark 集群 有 三 种 典型 
的 运行 模式 : Standalone 模式 、YARN-Client 模式 和 YARN-Cluster 模式 。 

1) Standalone 模式 

独立 集群 运行 模式 ,使 用 Spark 自 带 的 Master 程序 提供 集群 资源 调度 服务 ,这 种 模式 
主要 用 于 本 地 开发 测试 ,其 计算 架构 见 图 16-46。 该 模式 主要 包括 Client 15 , Master 节点 
和 Worker 节点 ,Spark Driver 可 以 运行 在 Master 节点 上 ,也 可 以 运行 在 本 地 Client 节点 


(运行 着 Application) 。 


T 
Standby Master 








Master 


EE 


Application 











图 16-46 Spark 的 Standalone 运行 模式 
Standalone 模式 下 的 执行 步骤 见 图 16-47, 具 体 如 下 。 
(1) Client( 通 过 SparkContext) 连 接 到 Master, 向 Master 注册 并 申请 资源 (CPU 和 内 
存 空 间 )。 
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(2) Master 根据 SparkContext 的 申请 和 Worker 心跳 周期 内 报告 的 信息 决定 在 哪个 
Worker 上 分 配 资源 ,然后 在 该 Worker 上 获取 资源 ,然后 启动 该 节点 的 StandaloneExecu- 
torBackend 。 

(3) StandaloneExecutorBackend 向 SparkContext 注册 。 

(4) SparkContext 将 Applicaiton 代码 发 送 给 StandaloneExecutorBackend; SparkCon- 
text 解析 Applicaiton 代码 ,构建 DAG, 并 提交 给 DAG Scheduler 分 解 成 Stage( 当 碰 到 
Action 操作 时 ,就 会 催生 Job; 每 个 Job 中 含有 一 个 或 多 个 Stage, Stage 一 般 在 获取 外 部 数 
据 和 Shuffle 之 前 产生 ); 然后 以 Stage( 或 者 称 为 TaskSet) 为 单位 提交 给 Task Scheduler. 
Task Scheduler 负责 将 Task 分 配 到 相应 的 Worker, 最 后 提交 给 StandaloneExecutorBack- 
end 执行 。 

(5) StandaloneExecutorBackend 会 建立 Executor 线程 池 ,开始 执行 Task, 并 向 Spark- 
Context 报告 直至 Task 完成 。 

(6) 所 有 Task 完成 后 ,SparkContext 向 Master 注销 ,释放 资源 。 
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图 16-47 Slandalone 执行 流程 


2) YARN-Client 模式 

此 模式 中 Driver 在 客户 端 本 地 运行 ,使 得 应 用 程序 和 Spark 客户 端 可 以 进行 交互 。 可 
通过 webUI 查询 Driver 的 状态 ,默认 端口 是 http://hadoopl:4040. m Y ARN 状态 则 可 通 
过 http://hadoop1 :8088 端口 访问 。YARN-Client 模式 下 的 执行 步骤 如 下 (图 16-48) 。 

(1) Spark Yarn Client 向 YARN 的 ResourceManager 申请 启动 Application Master， 
同时 在 SparkContent 初始 化 中 创建 DAGScheduler 和 TASKScheduler, 在 Yarn-Client 模 
式 下 会 选择 创建 YarnClientClusterScheduler 和 YarnClientSchedulerBackend。 

(2) ResourceManager 收 到 请 求 后 在 集群 中 选择 一 个 NodeManager, 并 为 该 应 用 程序 
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分 配 第 一 个 Container, 要 求 在 这 个 Container 中 启动 应 用 程序 的 ApplicationMaster。 与 下 
面 要 谈 到 的 YARN-Cluster 模式 的 区 别 是 : 该 ApplicationMaster 不 运行 SparkContext, 只 
与 SparkContext 联系 进行 资源 调派 。 

(3) SparkContext 初始 化 完毕 ,与 ApplicationMaster 建立 通信 ,向 ResourceManager 
注册 ,根据 任务 信息 向 ResourceManager HH EUR Container) 。 

(4) 一 旦 ApplicationMaster 申请 到 Container, 便 与 对 应 的 NodeManager 通信 ,Node- 
Manager 会 启动 Executor 线程 并 在 获得 的 Container 中 启动 CoarseGrainedExecutorBack- 
end,CoarseGrainedExecutorBackend 启动 后 会 向 SparkContext 注册 并 申请 Task。 

(5) SparkContext 分 配 Task 给 CoarseGrainedExecutorBackend 执行 ,CoarseGraine- 
dExecutorBackend 运行 Task 并 向 Driver 报告 运行 状态 和 进度 ,以 便 Client 随时 掌握 各 个 
任务 的 运行 状态 ,在 任务 失败 时 重启 任务 。 

(6) 应 用 程序 运行 完成 后 ,SparkContext 向 ResourceManager 申请 注销 并 关闭 。 


| YarnClientClusterScheduler | 





4 申请 启动 
App Master 




















图 16-48 Spark 的 YARN-Client 运行 模式 


3) Spark-Cluster 模式 

在 此 模式 下 当 用 户 向 YARN 提交 一 个 应 用 程序 后 ,YARN 将 分 两 个 阶段 运行 该 应 用 
程序 : 第 一 个 阶段 把 应 用 主 控 程 序 Driver 作为 一 个 ApplicationMaster 在 YARN 集群 中 先 
启动 ; 第 二 个 阶段 是 由 ApplicationMaster 创建 应 用 程序 并 为 它 向 ResourceManager 申请 
资源 ,并 启动 Executor 来 运行 Task, 同 时 监控 它 的 整个 运行 过 程 , 直 到 运行 完成 。YARN- 
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Client 模式 下 的 执行 步骤 如 下 (图 16-49). 


(1) Spark Yarn Client 向 YARN 提交 应 用 程序 ,包括 ApplicationMaster 程序 .启动 
ApplicationMaster 的 命令 .需要 在 Executor 中 运行 的 程序 等 。 

(2) ResourceManager 收 到 请 求 后 ,在 集群 中 选择 一 个 NodeManager, 为 该 应 用 程序 分 配 
第 一 个 Container, 要 求 在 此 Container 中 启动 ApplicationMaster, 并 由 ApplicationMaster 进行 
SparkContext 的 初始 化 。 

(3) ApplicationMaster 向 ResourceManager 注册 (这 样 用 户 可 以 直接 通过 
ResourceManager 监控 应 用 程序 的 运行 状态 ) ,然后 它 将 采用 轮 询 的 方式 通过 RPC 协议 为 
各 个 Task 申请 资源 ,并 监控 其 运行 状态 直到 结束 。 

(4) 一 旦 ApplicationMaster 申请 到 资源 (也 就 是 Container) , 便 与 对 应 的 NodeManager 通 
信和 ,要 求 它 在 获得 的 Container 中 启动 CoarseGrainedExecutorBackend, 后 者 启动 后 会 向 
ApplicationMaster 中 的 SparkContext 注册 并 申请 Task。 

(5) SparkContext 分 配 Task 给 CoarseGrainedExecutorBackend 执行 , CoarseGraine- 
dExecutorBackend 运行 Task 并 向 ApplicationMaster 报告 运行 状态 和 进度 ,以 便 Applica- 
tionMaster 掌握 各 任务 的 运行 状态 ,从 而 可 在 任务 失败 时 重启 任务 。 

(6) 应 用 程序 运行 完成 后 ,由 ApplicationMaster 向 ResourceManager 申请 注销 并 
关闭 。 
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图 16-49 Spark 的 YARN-Cluster 运行 模式 
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YARN-Client 和 YARN-Cluster 的 主要 区 别 在 于 应 用 主 控 程序 Driver (包含 
SparkContex Bl DAGScheduler. TaskScheduler.SparkEnv. RDD DAG 等 ) 的 创建 和 运行 方 
式 。 在 YARN-Client 模式 ,Driver 是 由 Spark Yarn Client 通过 ApplicationMaster 创建 ,并 
运行 在 客户 端 ,任务 分 配 和 调度 也 由 Client 参与 完成 ,因此 整个 运行 过 程 不 能 离开 Client 的 
参与 ; 在 YARN-Cluster 模式 ,Driver 作为 ApplicationMaster 运行 在 YARN 集群 的 某 一 节 
点 (Worker) 上 ,一 旦 该 ApplicationMaster 创建 和 启动 , 即 由 它 负 责 申请 资源 及 任务 调度 ， 
此 时 不 再 有 Client 的 参与 ,因此 YARN-Cluster 模式 不 适合 执行 交互 类 型 的 作业 。 

在 YARN 中 每 个 应 用 程序 都 有 一 个 ApplicationMaster 进程 , 它 负 责 和 ResourceManager 
打交道 并 请 求 资源 ,获取 资源 之 后 通知 NodeManager 为 其 启动 Containere M Application- 
Master 进程 的 角度 看 , YARN-Client 和 YARN-Cluster 的 区 别 在 于 YARN-Client 的 
ApplicationMaster 只 负责 为 应 用 程序 申请 资源 ,角色 较 简 单 ; 而 在 YARN-Cluster 模式 下 ， 
Application Master 除了 向 ResourceManager 申请 资源 , 尚 需 执行 创建 SparkContex、 进 行 
任务 调度 ,监督 作业 运行 状况 等 多 项 职责 。 

3. RDD 数据 模型 

Spark 的 RDD(Resilient Distributed Datasets) 定 义 为 弹性 分 布 式 数据 集 , 即 一 组 不 可 
改变 、 可 并 行 计算 ,分 区 的 (Partitioned) 数 据 集 的 集合 。RDD 既是 一 个 数据 模型 ,也 是 一 
内 存 抽象 模型 。 在 逻辑 结构 上 ,RDD 可 以 理解 为 一 个 数组 ,数组 的 元 素 即 是 分 区 Partition; 
在 物理 数据 存储 上 ,RDD 的 每 一 个 Partition 对 应 的 就 是 一 个 数据 块 Block. Block 可 以 有 多 
个 副本 ,分 别 存 储 在 不 同 节 点 的 内 存 中 ,如 图 16-50 所 示 。 当 内 存 不 够 时 还 可 以 持久 化 存储 
到 磁盘 上 。 


RDD 多 辑 物理 结构 : 分 布 式 数组 
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图 16-50 RDD 数据 模型 


RDD 的 设计 是 基于 如 下 两 个 考虑 。 

COD 机 器 学 习 和 图 计算 包含 大 量 和 迭代 式 算 法 ,比如 PageRank、K-means 326,32 48 [8] IH 
(Logistic Regression) 、 单 源 最 短路 径 算法 SSSP 等 ,这些 算法 在 迭代 过 程 中 产生 并 使 用 大 
量 的 中 间 数 据 。MapReduce 模型 是 将 这 些 中 间 数 据 存 储 到 磁盘 上 ,大 量 磁盘 1/O 操作 严重 
影响 了 处 理 速 度 , 因 此 需要 一 种 内 存 计算 模型 来 提高 计算 性 能 。 

(2) 在 交互 式 数 据 挖掘 计算 时 ,用 户 程 序 常 常 对 一 个 数据 子 集 进行 多 次 查询 。 
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MapReduce 这 类 基于 数据 流 的 计算 模型 并 不 明确 支持 缓存 ,因此 需要 将 数据 输出 到 磁盘 ， 
然后 在 每 次 查询 时 重新 加 载 , 这 带 来 很 大 的 开销 。 如 果 能 将 查询 结果 进行 缓存 ,将 大 大 提高 
查询 效率 。 

RDD 具有 如 下 特点 。 

(1) Immutable: 任何 操作 都 不 会 改变 RDD 本 身 ,只 会 创造 新 的 RDD, 但 记录 RDD 的 
转换 过 程 , 以 支持 无 共享 数据 读 写 同 步 及 可 重 算 性 。 

(2) Partitioned: RDD 是 分 布 存储 在 集群 节点 上 的 、 分 区 的 (Partitioned) 数 据 集 ,以 分 
IX (Partition) 作为 最 小 存储 和 处 理 单 位 ,可 通过 分 区 方法 (如 采用 Hash 分 区 ) 来 优化 存储 
结构 。 

(3) in parallel: 一 个 Task 对 应 一 个 partition,Task 之 间 相 互 独立 并 行 计 算 。 

(4) fault-tolerant: 基于 Lineage 的 高 容错 性 ,对 于 丢失 的 部 分 Partitions 只 需 根 据 其 
Lineage 就 可 重新 计算 出 来 ,而 不 需 做 CheckPoint 操作 。 

(5) Persistence; 必须 是 可 序列 化 的 ,可 通过 控制 存储 级 别 ( 内 存 、 磁 盘 等 ) 来 进行 重用 ， 
当 内 存 空 间 不 足 时 可 把 RDD 存储 于 磁盘 上 。 

RDD 可 以 通过 函数 StorageLevel(bool useDisk,bool useMemory,bool deserialized ,int 
replication) 的 参数 值 组 合 来 定义 其 存储 级 别 及 副本 数目 ,如 下 面 的 代码 所 示 。 


val NONE = new StorageLevel(false，false，false) 

val DISK ONLY = new StorageLevel(true, false, false) 

val DISK ONLY 2 - new StorageLevel(true, false, false, 2) 

val MEMORY ONLY - new StorageLevel(false, true, true) 

val MEMORY ONLY 2 - new StorageLevel(false, true, true, 2) 

val MEMORY ONLY SER - new StorageLevel(false, true, false) 

val MEMORY ONLY SER 2 - new StorageLevel(false, true, false, 2) 
val MEMORY AND DISK = new StorageLevel(true, true, true) 

val MEMORY AND DISK 2 = new StorageLevel(true, true, true, 2) 
val MEMORY AND DISK SER = new StorageLevel(true, true, false) 
val MEMORY AND DISK SER 2 - new StorageLevel(true, true, false, 2) 


Spark 提供 了 RDD 的 如 下 创建 方式 。 
(1) 从 Hadoop 的 文件 系统 HDFS (或 与 Hadoop 兼容 的 其 他 存储 系统 如 Hive, 
Cassandra、HBase) 输 入 创建 。 


// 从 HDFS 文件 创建 

var rdd = sc.textFile("hdfs:///tmp/1xw1234/1l.txt") 

rdd: org. apache. spark. rdd. RDD[ String] = MapPartitionsRDD[26] at textFile at :21 
// 从 本 地 文件 创建 

var rdd = sc.textFile("file:///etc/hadoop/conf/core - site. xml") 

rdd: org.apache. spark.rdd.RDD[String] = MapPartitionsRDD[28] at textFile at :21 


(2) 从 父 RDD 转换 得 到 新 RDD。 


//RDD A 从 HDFS 文件 创建 

val rdd A = sc.textFile(hdfs://...) 

// 对 RDD A 进行 flatMap 转换 产生 RDD B 

valrdd B = rdd A.flatMap((line => line. split("\\s+"))).map(word => (word, 1)) 


e 
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(3) 通过 parallelize() 或 makeRDD() 将 单机 数据 创建 为 分 布 式 RDD. 


// 使 用 parallelize( ) 创 建 RDD 

var rdd = sc.parallelize(1 to 10) 

rdd: org. apache. spark. rdd. RDD[ Int] = ParallelCollectionRDD[2] at parallelize at :21 

// 使 用 makeRDD() 创 建 RDD 

var collect = Seq((1 to 10，Seq("slave007. 1xw1234. com","slave002. 1xw1234. com")), 

(11 to 15, Seg(" s1ave013. 1xw1234. con", " slave015. 1xw1234. con") ) ) 

collect: Seq[ (scala. collection. immutable. Range. Inclusive, Seq[String])] = List((Range(1, 
2.3, A or Tr B 9y 10) 

List( slave007. 1xw1234. com, slave002. 1xw1234. com)), (Range (11, 12, 13, 14, 15), List 
(slave013.1xw1234.com, slave015. 1xw1234. com) ) ) 

var rdd = sc.makeRDD(collect) 

rdd: org. apache. spark. rdd. RDD 


(4) 基于 DB(MySQL) , NoSQLCHBase) 、S3(SC3) ,数据 流 创建 。 


import org. apache. hadoop. hbase. (HBaseConfiguration, HTableDescriptor, TableName] 

import org. apache. hadoop. hbase. (HBaseConfiguration, HTableDescriptor, TableName] 

import org. apache. hadoop. hbase. napreduce. TableInputFormat 

import org. apache. hadoop. hbase. mapreduce. TableInputFormat 

import org. apache. hadoop. hbase. client. HBaseAdmin 

import org. apache. hadoop. hbase. client. HBaseAdmin 

// 从 HBase 表格 输入 创建 RDD 

val conf = HBaseConfiguration.create() 

conf.set(TableInputFormat. INPUT TABLE, "1xw1234") 

var hbaseRDD = sc. newAPIHadoopRDD (conf, classOf [ org. apache. hadoop. hbase. mapreduce. 
TableInputFormat], classOf[org. apache. hadoop. hbase. io. ImmutableBytesWritable], classOf[org. 
apache. hadoop. hbase. client. Result]) 


作为 一 个 抽象 类 ,RDD 具有 如 下 的 属性 和 内 部 接口 ( 表 16-7) 。 

(1) 一 组 RDD 分 区 列表 (Partition, 即 数据 集 的 原子 组 成 部 分 ) 。 

(2) 对 父 RDD 的 一 组 依赖 关系 ,这 些 依 赖 描述 了 RDD 的 Lineage; 

(3) 一 个 分 区 计算 函数 , 即 在 父 RDD 上 执行 何 种 计算 。 

(4) 描述 分 区 数据 存放 的 位 置 。 

(5) 对 Key-Value RDD 的 分 区 方法 , 即 采 用 何 种 分 区 模式 (Hash 或 Range) 。 


表 16-7 RDD 内 部 接口 














内 部 接口 含 义 
partitions() 返回 一 组 Partition 对 象 
preferredLocations( p) 根据 存放 位 置 , 返 回 分 区 p 访问 更 快 的 节点 
dependencies() 返回 一 组 依赖 关系 
iterator(p，parentIters) 按照 父 分 区 的 迭代 器 ,逐个 计算 分 区 p 的 元 素 
partitioner() 返回 分 区 元 数据 信息 ,如 是 否 Hash/Range 分 区 








对 于 Spark 内 建 的 几 种 类 型 RDDCHadoopRDD, FilteredRDD, JoinedRDD) 而 言 , 上 述 
内 部 接口 的 具体 含义 见 表 16-8 。 
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表 16-8 几 种 RDD 的 内 部 接口 含义 


























内 部 接口 HadoopRDD FilteredRDD JoinedRDD 

EN Partitions 对 应 的 HDFS g 每 个 Reduce 任务 对 应 的 一 
patrons Blocks 组 成 的 集合 FARDD 个 Partition 
preferredLocationsO | HDFS Block fv $t 无 (或 询问 父 RDD) 无 
Dependencies) x 与 父 RDD 一 对 一 关系 ”对 每 个 父 RDD 进行 Shuffle 
读 取 Partition 对 应 的 
iterator() Block 数据 过 滤 操作 连接 Shuffled 数据 
partitioner() 无 无 HashPartitioner 

4. 转换 和 操作 算 子 


算 子 是 RDD 中 定义 的 外 部 函数 ,可 以 对 RDD 中 的 数据 进行 转换 和 操作 。RDD 算 子 有 转 
换 (Transformation ) 和 操作 (Action) 两 种 。 其 中 ,转换 又 分 为 数值 型 (Value) Transformation 和 
键 值 对 型 (Key-Value)Transformation 两 种 。 

Transformation 的 功能 是 按照 一 定 的 准则 将 一 个 RDD 转换 生成 另 一 个 新 RDD, 即 返回 值 
还 是 一 个 RDD。 但 Transformation 属于 延迟 转换 , 即 对 一 个 RDD 执行 Transformation 动作 时 
并 不 是 立即 进行 转换 ,而 是 记 住 其 执行 逻辑 ,等 到 有 Action 操作 的 时 候 才 真正 启动 转换 过 
程 完成 计算 。Transformation 算 子 有 map ,filter、join、cogroup 等 多 种 类 型 , 见 表 16-9。 


表 16-9 

map(f; T2 U) 
filter(f; TBool) : 
flatMap(f; T-Seq(UD. : 
sample(fraction;Float) : 
groupByKeyO : 
reduceByKey(f: CV, V) V) : 
unionO : 
joinO : 
cogroupO : 


crossProduct() 
mapValues(f; VW) : 


基本 算 子 列表 


: RDDLT]=>RDDLU] 


RDD(T]-* RDD( T] 

RDD(T]-RDD[U] 

RDD( T] RDD[ T ](Deterministic sampling) 
RDD[(K, V) J- RDD((K. Seq V]) ] 
RDD[(K, V) J- RDD((K , V) ] 
(RDDUT]. RDDU T) RDD(T] 

(RDD[(K, V], RDD[ CK, W) D RDD[(K CV, W))] 
(RDD[(K, V) ], RDD[ CK, W) D RDD[(K, Ceq[ V]. 
SeqLW]))] 


: (RDD[T]RDDLU]) 一 RDDLCT,U)] 


RDD[(K.V) ]-- RDD((K , W) ]CPreserves partitioning) 





lookupCk: K) 





save path:String) 


sort(c:Comparator,LK])) : RDD((K,V) ]- RDD((K, V5] 
partitionBy(p: Partitioner[K]) : RDD((K,V) ]- RDD((K,V)] 
countO : RDD[T]-Long 
colleetO : RDD(T]-Seq[ T] 
reduce(f; CT, T) T) : RDD[T]>T 


: RDD[(K, V)]= Seq[ V]COn hash/range partitioned 


RDDs) 


: Outputs RDD to a storage system,e. g. ，HDFS 





Action 操作 则 在 完成 对 RDD 的 计算 后 返回 结果 或 把 RDD 写 到 存储 系统 中 , 它 也 是 触 
A Spark 计算 流程 的 动因 ,Action 的 返回 值 不 是 一 个 RDD。Action 算 子 有 count, collect, 
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reduce, lookup 和 save 等 操作 , 见 表 16-9 。 

下 面 根据 输入 与 输出 RDD 的 对 应 关系 或 数据 格式 ,对 各 类 算 子 进行 一 个 归纳 。 

(1) value 型 Transformation: 从 输入 到 输出 可 分 为 一 对 一 (包括 Cache) 、 多 对 一 、 多 对 
多 .输出 分 区 为 输入 分 区 子 集 等 类 型 。 

De 

map: 简单 的 一 对 一 映射 ,集合 不 变 。 

flatMap: 一 对 一 映射 ,并 将 最 后 映射 结果 整合 。 

mappartitions: 对 分 区 内 元 素 进行 迭代 操作 ,例如 过 滤 等 ,然后 分 区 不 变 。 

glom: 将 分 区 内 容 转换 成 数据 。 

Q 多 对 一 

union; 相同 数据 类 型 RDD 进行 合并 ,并 不 去 重 。 

cartesian: 对 RDD 内 的 所 有 元 素 进 行 笛 卡 儿 积 操作 。 

O 多 对 多 

groupBy: 将 元 素 通 过 函数 生成 相应 的 Key. 然 后 转化 为 Key-Value 格式 。 

@ 输出 分 区 为 输入 分 区 子 集 

filter; 对 RDD 进行 过 滤 操 作 ,结果 分 区 不 调整 。 

distinct; 对 RDD 进行 去 重 操作 。 

subtract: RDD 间 进 行 减 操作 ,去除 相同 数据 元 素 。 

sample/takeSample: 对 RDD 进行 采样 操作 。 

© cache 

cache; 将 RDD 数据 原样 存 人 内 存 。 

persist; 对 RDD 数据 进行 缓存 操作 。 

(2) Key-Value 型 Transformation; 大 致 可 分 为 一 对 一 .聚集 .连接 三 类 操作 类 型 。 

OEZ 

mapValues: 针对 数值 对 中 的 Value 进行 上 面 提 到 的 map 操作 。 

RE 

combineByKey,reduceByKey,partitionBy,cogroup 。 

© 连接 

join.leftOutJoin. rightOutJoin, 

(3) Action; 通过 SparkContext 提交 作业 操作 ,触发 RDD DAG 的 执行 。 有 如 下 类 型 。 

(D foreach 

对 RDD 中 每 个 元 素 进行 操作 ,但 是 不 返回 RDD 或 者 Array, 只 返回 Unit; 

@ 存 人 HDFS 文件 系统 

saveAsTextFile,saveAsObjectFile 

@ Scala 数据 格式 

collect,collectAsMap ,reduceByKeyLocally,lookup,count,top,reduce,fold,aggregate 

下 面 是 一 段 展示 对 RDD 进行 创建 、 转 换 (Transform)、 操 作 (Action) 的 代码 ,从 中 可 
看 出 Transform 和 Action 两 种 算 子 的 使 用 方法 。 图 16-51 则 是 这 段 代码 的 执行 过 程 示 
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// 创 建 SparkContext 


val sc = new SparkContext(master, "Example", System.getenv("SPARK HOME"), Seq(System. getenv 
("SPARK TEST JAR"))) 

//RDD A 从 HDFS 文件 创建 

valrdd A - sc.textFile(hdfs://...) 

// 对 A 进行 flatMap 转换 产生 B 

val rdd B = rdd A.flatMap((line => line. split("\\s+"))).map(word => (word, 1)) 
//RDD C 从 HDES 文件 创建 

val rdd_C = sc.textFile(hdfs://...) 

// 对 C 进 行 ap 转换 产生 D 

val rdd D = rdd C.map(line => (line.substring(10), 1)) 

// 对 D 进行 reduceByKey 操作 产生 E 

val rdd E = rdd D.reduceByKey((a, b) =>a + b) 

// 对 了 进行 join 操作 产生 了 

val rdd F = rdd B. jion(rdd E) 

// 通 过 saveAsSequenceFile 操作 将 RDD F 写 人 存储 系统 

rdd F. saveAsSequenceFile(hdfs://...) 


^ — Transformations Actions 


| stage 1 


textFile.. 


reduceByKey 
Stage 2 





stage3 
图 16-51 两 种 RDD 算 子 执行 流程 


5. Dependency( 依 赖 ) 与 Lineage( 血 缘 ) 


1) 依赖 关系 

对 RDD 的 转换 操作 都 是 粗 粒度 的 ,一 个 旧 RDD 的 转换 操作 会 产生 一 个 新 的 RDD, 新 
IH RDD 之 间 ( 又 称 父 子 RDD) 会 形成 一 个 前 后 依赖 关系 , 即 所 谓 的 Dependency, Spark 中 
存在 两 种 依赖 关系 : FIKH Narrow Dependencies) 和 宽 依 赖 (Wide Dependencies), 

ERA: 父 RDD 的 每 一 个 分 区 最 多 被 子 RDD 的 一 个 分 区 所 用 ,表现 为 父 RDD 的 一 个 
分 区 对 应 于 子 RDD 的 一 个 分 区 或 父 RDD 的 多 个 分 区 对 应 于 子 RDD 的 一 个 分 区 , 即 转换 
前 后 父子 RDD 的 分 区 对 应 关系 是 一 对 一 或 多 对 一 映射 ,如 图 16-52(a) 所 示 。 

宽 依赖 : F RDD 的 一 个 分 区 依赖 于 父 RDD 的 所 有 分 区 或 多 个 分 区 , 父 RDD 的 一 个 
分 区 会 被 子 RDD 的 多 个 分 区 使 用 , 即 转换 前 后 父子 RDD 的 分 区 对 应 是 多 对 多 映射 ,如 
16-52(b) 所 示 。 

窄 依 赖 的 节点 (RDD) 关 系 如 流水 线 一 般 , 由 于 前 后 RDD 的 分 区 是 一 对 一 关系 ,所 以 当 
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某 个 节点 失败 后 只 需 重新 计算 父 节点 的 分 区 即 可 ; 而 宽 依赖 是 多 对 一 映射 ,因此 一 个 子 
RDD 失效 需要 重新 计算 父 RDD 的 多 个 分 区 ,代价 是 非常 昂贵 的 。 另 外 , 罕 依 赖 允许 在 一 

集群 节点 上 以 流水 线 方式 计算 所 有 父 分 区 ,比如 逐个 分 区 地 执行 map, 然 后 进行 filter 操 
作 ; 而 宽 依赖 则 需要 首先 计算 好 父 分 区 的 所 有 数据 ,然后 在 节点 之 间 进 行 Shuffle, 这 与 





MapReduce 的 中 间 步 又 类 似 。 
一 一 人 
(a) 窄 依赖 (Narrow Dependency) (b) 宽 依赖 (Wide Dependency) 


图 16-52 RDD 的 两 种 依赖 关系 


图 16-53 给 出 了 两 种 依赖 形式 的 另 一 个 例子 ,其 中 ,转换 算 子 的 map. filter, union 等 操 
作 产 生 的 是 窄 依赖 ,而 groupByKey 产生 的 则 是 宽 依 赖 。join 转换 分 为 两 种 情况 : 父子 
RDD 采用 相同 Hash 分 区 的 则 是 窄 依赖 ,否则 即 是 宽 依 赖 。 


Narrow zs Wide Dependencies: 


map. filter mp groupByKey 





join with inputs 


co-partitioned FT 
i join with inputs not 


union co-partitioned 


图 16-53 依赖 关系 示例 





2) 血缘 
如 前 所 述 , RDD 的 转换 (Trandformation) 采 用 惰性 调用 机 制 ,每 个 RDD 记录 父 RDD 
转换 的 方法 ,但 并 不 立即 实施 转换 ,直到 一 个 操作 (Action) 触 发 了 这 一 系列 转换 。 这 种 多 个 























转换 步骤 调用 构成 了 一 个 链表 (如 图 16-54 所 示 ), 称 为 血 inputRDD 

?&(Lineage) 。 filter filter 
通过 这 种 血缘 关系 连接 的 RDD 操作 可 以 管道 化 sings] 

(Pipeline) ,管道 化 的 操作 可 以 直接 在 单 节点 完成 ,避免 多 

次 转换 操作 之 间 数 据 同步 的 等 待 。 基 于 血缘 的 管道 化 串 AMT 











badLinesRDD. 


联 操 作 可 以 保持 每 个 步骤 计算 的 相对 简单 性 ,不 用 担心 有 
过 多 的 中 间 数 据 ,这 样 也 保证 了 计算 逻辑 的 单一 性 。 另 。 图 16-54 RDD 的 血缘 (Lineage) 
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外 ,RDD 的 血缘 关系 图 也 就 是 计算 模型 的 有 向 无 环 图 (DAG) , 它 记 录 了 RDD 的 更 新 过 程 。 
当 某 一 RDD 的 部 分 分 区 数据 丢失 时 , 它 可 以 通过 Lineage 获取 足够 的 上 游 RDDs 信息 来 重 
新 计算 和 恢复 丢失 的 分 区 。 

6. Spark 调度 机 制 

Spark 的 调度 机 制 包括 Job/Stage/Task 划分 、 双 层 多 级 模型 及 调度 算法 。 

1) 双 层 多 级 调度 模型 

Spark 的 计算 模型 包括 Application( 应 用 程序 )、Job( 作 业 )、Stage( 阶 段 )、Task( 任 务 ) 
4 个 等 级 。 一 个 Application 由 多 个 Jobs 组 成 ; 而 一 个 Job 又 分 为 多 个 Stages, 不 同 的 
Stage 之 间 需 要 进行 Shuffle( 混 编 ); 每 个 Stage 由 一 组 执行 相关 任务 但 互相 间 没 有 Shuffle 
依赖 的 Tasks 组 成 (组 合成 TaskSet) 。 

在 Application 内 部 Action 算 子 触发 的 一 系列 变换 (Transformation) 操 作 ( 也 即 一 个 
DAG 的 提交 ) 组 成 一 个 Job。 一 个 Application 可 以 包含 多 个 Jobs,Spark 可 对 Jobs 进行 并 
行 计算 。 

Spark 在 一 个 Job 的 DAG 基础 上 通过 分 析 各 个 RDD 分 区 之 间 的 依赖 关系 来 决定 如 何 
划分 Stage, 具 体 的 Stage 划分 方法 如 下 。 

(D 在 DAG 中 进行 反 向 解析 , 遇 到 宽 依赖 就 断 开 。 

(2) 遇 到 窄 依赖 就 把 当前 的 RDD 加 入 到 Stage rh. 

(3) 将 窄 依赖 尽量 划分 在 同一 个 Stage 中 ,可 以 实现 流水 线 计算 。 

Stage 的 划分 方法 可 以 归纳 为 : 将 宽 依赖 的 两 边 归 入 不 同 的 Stage, 将 窄 依赖 归 人 一 个 
Stage 中 。 以 图 16-55 为 例 ,RDDs A,B,C,D,E 及 其 算 子 构成 了 一 个 DAG。 我 们 从 图 的 右 
边 开 始 向 左边 划分 ,B 和 G 之 间 是 窄 依赖 ,因此 归 入 一 个 Stage; F A G 是 宽 依赖 ,因此 分 属 
不 同 的 Stages; A fI B 是 宽 依 赖 ,分 属 不 同 的 Stages( 即 A 不 能 纳入 B.G 所 在 的 Stage); D 
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与 FE.C 与 D.E 与 F 均 为 窄 依赖 ,可 归 和 一 个 Stage。 综 合 上 述 ,划分 结果 为 : RDD A 单独 
成 为 Stage 1,RDDs C,D,E,F 构成 Stage 2. RDDs B,G 组 成 Stage 3. 

Stage 的 类 型 有 两 种 : ShuffleMapStage 和 ResultStage. 

(D ShuffleMapStage: 不 是 最 终 的 Stage, 在 它 之 后 还 有 其 他 Stage, 它 的 输出 需要 
Shuffle, 并 作为 后 续 Stage 的 输入 ; 这 种 Stage 是 以 Shuffle 为 输出 边界 ,其 输入 可 以 是 从 外 
部 获取 数据 ,也 可 以 是 前 一 个 ShuffleMapStage 的 输出 。 

(2) ResultStage: 最 终 的 Stage, 没 有 输出 ,而 是 直接 产生 结果 或 存储 。 这 种 Stage 是 直 
接 输出 结果 ,其 输入 可 以 是 从 外 部 获取 数据 或 是 另 一 个 ShuffleMapStage 的 输出 。 在 一 个 
Job 里 必定 有 该 类 型 Stage。 

图 16-55 例子 中 , Stage 1 和 Stage 2 均 为 ShuffleMapStage, Stage 3 则 是 该 Job 的 
ResultStage, 

每 个 Stage 中 包含 分 属 不 同 RDD 的 多 个 分 区 (Partition) ,由 于 每 个 分 区 将 来 都 要 对 应 
到 Worker 节点 上 运行 的 Task 线程 ,因此 每 个 Stage 中 包含 的 分 区 对 应 的 Tasks 组 成 了 一 个 
TaskSet, 。 图 16-54 表示 了 Job—-Stage—* Taskset — TaskThread 的 过 程 , 即 DAGScheduler 基于 
DAG 将 Job 划分 为 多 个 Stage, 每 个 Stage 包含 一 个 TaskSet, 由 Spark 层面 的 
TaskSetManager 来 管理 ,并 与 TaskScheduler 协调 ,将 各 个 Task 分 发 到 各 个 Worker 节点 
上 去 作为 线程 运行 。 

Spark 采用 了 双 层 多 级 的 调度 模型 , 即 整 个 调度 架构 分 为 计算 需求 调度 (Application/ 
Job/Stage/Task) 和 计算 资源 配置 (Worker/Executor/TaskThread) 两 个 层面 ,在 需求 调度 
层面 又 分 为 Job 调度 (由 DAGScheduler 承担 ) 和 Task 调度 (由 TaskScheduler 承担 ) ,在 计 
算 资 源 配置 层面 则 需 决 定 每 个 Worker 上 启动 多 少 Executor 进程 ,分 配 多 少 资源 ,每 个 
Executor 内 运行 多 少 个 Task 线程 等 。 

需要 注意 的 是 ,需求 调度 层 与 资源 配置 层 之 间 是 分 离 的 , 即 下 层 的 计算 资源 并 不 与 上 层 
的 计算 任务 绑 定 。 上 层 计算 任务 的 调度 ( 即 如 何 将 具体 的 RDD 分 区 映射 到 Worker 上 的 
Task 线程 , 或 者 说 如 何 将 Task 分 发 到 集群 的 Worker 节点 上 去 执行 ) 则 是 由 
TaskSetManager 通过 TaskScheduler 与 下 层 的 计算 资源 管理 器 (SchedulerBackend) 的 协调 
来 实现 的 。 

图 16-56 清楚 地 描绘 了 这 种 双 层 面 调度 模型 。 上 层 包 括 Job, Stage, Task 等 计算 项 ,由 
DAGScheduler 完成 划分 调派 ; 下 层 包 括 Worker, Executor, Thread, H SchedulerBackend 
负责 分 派 ,SchedulerBackend 可 以 是 粗 粒 度 (Standalone、YARN、Mesos 等 模式 下 ), 也 可 以 
是 细 粒 度 ( 仅 在 Mesos 模式 下 )。 如 何 调度 下 层 的 计算 资源 (Thread) 去 完成 上 层 的 计算 任 
% (Task) , 则 通过 TaskScheduler 的 协调 来 完成 。 

2) 调度 算法 

基于 上 述 调度 模型 ,在 计算 任务 层面 Spark 的 调度 分 为 4 个 级 别 : Application 资源 配 
置 Job 调度 , Stage 调度 ,Task 调度 。 除 Application 外 (其 资源 配置 由 ResourceManager 
完成 ), Job/Stage/Task 三 个 级 别 的 调度 主要 由 DAGScheduler、TaskSetManager、 
TaskScheduler 三 者 来 协同 完成 。 其 中 ,DAGScheduler 负责 构建 具有 依赖 关系 的 DAG 并 
划分 Stage/TaskSet,TaskSetManager 负责 在 TaskSet 内 部 进行 调度 .而 TaskScheduler 负 
责 将 可 用 的 计算 资源 提供 给 TaskSetManager 作为 调度 任务 的 依据 ,并 最 终 将 Task 分 发 到 
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图 16-56 Spark 的 双 层 多 级 调度 模型 

















集群 节点 上 去 执行 。 

(1) Application 配置 

Standalone 模式 下 ,默认 使 用 FIFO, 每 个 Application 会 独占 集群 所 有 可 用 资源 。 可 以 
通过 以 下 几 个 参数 调整 集群 相关 的 资源 。 

spark. cores. max: 设置 Application 可 以 向 集群 申请 的 CPU Core 数目 。 

spark. deploy. defaultCores: 默认 的 CPU Core 数量 。 

spark. executor. memory: 限制 每 个 Executor 可 用 的 内 存 。 

在 Mesos 模式 下 ,可 以 使 用 spark. mesos. coarse— true 设置 为 静态 粗 粒 度 调 度 。 如 果 
使 用 mesos://URL 且 不 配置 spark. mesos. coarse 一 true, 则 设置 为 动态 共享 模式 ,每 个 
Application 有 独立 固定 的 内 存 分 配 , 空 闲 时 其 他 机 器 可 以 使 用 其 资源 。 

在 Yarn 模式 下 ,提交 作业 时 可 以 通过 -num-executors 控制 分 配 多 少 个 Executor 给 
Application ,然后 通过 设置 -executormemory 和 一 executor-cores 来 控制 Executor 使 用 的 
内 存 和 CPU Core 数目 。 

(2) 作业 调度 

在 Application 内 部 ,调度 流程 如 图 16-57 所 示 ,RDD 处 理 流程 构成 一 个 DAG, 然 后 由 
DAGScheduler 按照 Shuffle Dependency 将 DAG 划分 成 多 个 Stage, 每 个 Stage 包含 的 分 区 
组 成 一 个 TaskSet. DAGScheduler 通过 TaskScheduler 接口 提交 TaskSet, 这 个 TaskSet 最 
终 会 触发 TaskScheduler 构建 一 个 TaskSetManager 的 实例 来 管理 这 个 TaskSet 的 生命 周 
期 ,对 于 DAGScheduler 来 说 提交 Stage 的 工作 到 此 就 完成 了 。 

在 TaskSet 被 提交 后 ,由 TaskSetManager 来 负责 任务 集 内 部 的 任务 调度 ,如 根据 
TaskScheduler 所 提供 的 单个 Resource 资源 (host,executor 和 locality 的 要 求 ) 返 回 一 个 合 


dnb 大 数据 分 析 与 计算 


适 的 Task, 更 新 任务 运行 状态 .调用 DAGScheduler 的 函数 接口 将 运行 结果 通知 给 它 、 当 某 
个 任务 的 运行 时 间 超 过 一 个 特定 比例 值 时 重新 调度 该 任务 以 避免 整个 Stage 执行 时 间 被 拖 
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Cluster 

Mee ES 
BS Taskset Task 
> Ea 
Po ) Split graph into launch tasks via execute tasks 
iter y 7 stages of tasks cluster manager 











图 16-57 Spark 的 调度 流程 


如 前 所 述 ,TaskScheduler 负责 将 集群 资源 提供 给 TaskSetManager 供 其 作为 分 派 任 务 
到 Executor 节点 上 执行 的 依据 。 但 是 每 个 Job 可 能 存在 多 个 同时 运行 的 任务 集 ( 没 有 依赖 
关系 ) ,每 个 任务 集 由 一 个 对 应 的 TaskSetManager 管理 ,如 何 决定 这 些 任 务 集 的 执行 次 序 ， 
则 需要 一 个 调度 池 对 象 (POOL Object) 来 决定 ,Pool 所 管理 的 对 象 是 下 一 级 的 Pool 或 者 
TaskSetManager 对 象 。Pool 有 两 种 调度 策略 可 选择 : FIFO 和 Fair, 使 用 哪 种 调度 策略 可 
由 参数 spark. scheduler. mode 来 设置 ,目前 可 选 的 参数 有 FAIR 和 FIFO, 默 认 是 FIFO, 

1) FIFO 调度 策略 

先进 先 出 策略 ,Pool 直接 管理 TaskSetManager。 每 个 Job 都 有 JobID ,每 个 TaskSet- 
Manager 都 带 有 了 其 对 应 的 Stage 的 StageID. Pool 最 终 根据 JobID 小 优先 、StageID X fft 
先 的 原则 来 调度 TaskSetManager, 如 图 16-58 所 示 。 需 注意 ,在 此 模式 下 Pool 实际 上 是 


Root Pool。 
TaskSetManager I—4 TaskSetManager TaskSetManager 
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图 16-58 FIFO 调度 策略 


2) Fair 调度 策略 

公平 调度 策略 ,目前 采用 的 是 两 级 结构 , 即 Root Pool 管理 一 组 子 调 度 池 (Pool) , 子 调 
度 池 进 一 步 管理 属于 该 调度 池 的 TaskSetManager. 如 图 16-59 所 示 。 在 Pool 之 间 ， 
TaskScheduler 采用 轮 询 (Round Robin) 方 式 分 配 资源 。 用 户 可 以 按照 Job 创建 子 调度 池 ， 
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即 一 个 子 调度 池内 存放 的 是 属于 该 Job 的 任务 。 在 默认 情况 下 ,这些 Job 之 间 公平 共享 资 
源 ,而 在 子 调度 池内 则 采用 FIFO 策略 调度 TaskSetManager。 用 户 也 可 以 对 Pool 设置 不 
同 的 权重 ,这 样 那些 优先 级 别 高 的 Job. 可 以 放 人 权重 高 的 Pool 中 得 到 优先 调度 。 
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图 16-59 Fair 调度 策略 


Spark 也 容许 用 户 自己 定义 一 个 调度 池 ( 见 下 面 的 myPooD ,以 后 所 有 sc 的 任务 都 放 入 
myPool 中 调度 。 

//sc 是 一 个 SparkContext 型 变量 

sc. setLocalProperty("spark. scheduler. pool", "myPool") 

用 户 还 可 以 通过 配置 文件 来 修改 调度 池 的 如 下 三 个 属性 。 

(1) schedulingMode: 该 属性 可 以 设 为 FIFO 或 FAIR ,定义 了 调度 策略 。 

(2) weight: 定义 了 调度 池 的 优先 级 别 。 默 认 情况 下 ,所 有 调度 池 的 权重 均 为 1。 如 果 
将 某 个 调度 池 的 权重 设 为 2, 那 么 , 它 获 得 的 资源 将 是 其 他 调度 池 的 二 倍 。 

(3) minShare: 除了 设 定 调 度 池 的 总 权重 外 ,每 个 调度 池 还 可 以 设置 共享 资源 的 最 小 
数量 (比如 CPU 核 数 )。 这 样 ,在 分 发 额外 的 资源 之 前 Fair Scheduler 调度 器 会 尝试 去 满足 
所 有 调度 池 所 需 的 共享 资源 的 最 小 数量 。 默 认 情况 下 ,每 个 调度 池 的 minShare 属性 值 
为 0。 
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习题 


1. 分 布 式 缓存 系统 的 工作 原理 是 什么 ? 根据 图 16-3 说 明 分 布 式 缓存 系统 是 如 何 大 大 


提高 系统 访问 速度 的 。 


2. 分 布 式 缓存 系统 有 同步 缓存 (图 16-4) 和 异步 缓存 (图 16-5) 两 种 模式 , 试 介绍 它们 各 


自 的 优 缺 点 。 


3. 什么 是 一 致 性 哈 希 算法 (Consistent Hashing Algorithm)? 试 举 例 说 明 一 致 性 哈 希 
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算法 是 如 何 解决 扩容 问题 的 。 


4. 与 图 16-23 的 读 写 分 离 数 据 库 架 构 比 较 , 图 16-24 的 数据 库 集群 架构 解决 了 什么 问 
题 ? 图 16-25 的 混合 分 区 架构 又 解决 了 什么 问题 ? 

5. RAMCloud 在 Master 节点 内 存 中 和 Backup 节点 磁盘 上 存储 有 两 套 Segment ff 
系 。 在 进行 内 存 清除 提高 内 存 使 用 率 时 ,为 何 对 Master 内 存 和 Backup 磁盘 要 采用 两 种 不 
同 的 清除 机 制 (Two-level Cleaning)? 试 解释 说 明 这 种 不 同 的 机 制 。 

6. 图 16-56 描绘 了 Spark 的 双 层 调度 模型 , 即 Spark 的 调度 包括 需求 层 (Application/ 
Job/Stage/Task) 和 资源 层 (Worker/Executor/TaskThread) 两 层 。 试 根据 图 16-56 说 明 
Spark 调度 算法 是 如 何 调 度 分 配 下 层 的 计算 资源 满足 上 层 的 计算 需求 的 。 








并 存 疾 病 的 概念 首先 由 Feinstein 提出 ,是 指 同 一 病人 存在 两 种 或 两 种 以 上 的 疾病 吕 。 
由 于 多 种 疾病 之 间 存 在 着 用 药 等 治疗 方案 上 的 相互 影响 ,并 存 疾病 的 治疗 往往 非常 复杂 。 
并 存 疾病 在 老年 人 中 普遍 存在 ,全 球 65 岁 以 上 人 群 中 大 约 50% 的 人 同时 患 有 两 种 或 两 种 
以 上 的 疾病 ,这 部 分 人 群 每 年 消耗 的 医疗 资源 占 总 资源 的 90% 以 上 中。 研究 并 存 疾病 的 临 
床 意义 主要 有 以 下 两 点 : 并 存 疾病 会 引起 单一 疾病 的 标准 诊断 不 完全 适用 ,因为 单一 疾 
病 诊断 标准 的 制定 不 会 考虑 到 并 存 疾病 之 间 的 相互 影响 ; @@ 并 存 疾病 会 引起 治疗 方案 的 改 
变 , 需 要 制定 一 套 对 多 种 疾病 联合 治疗 的 方案 ,而 不 是 单独 治疗 每 一 种 疾病 中 。 

医生 手动 地 搜索 并 诊断 某 一 种 疾病 的 所 有 并 存 疾病 需要 花费 大 量 的 时 间 , 而 诊断 之 后 
制定 多 疾病 的 联合 治疗 方案 同样 需要 大 量 的 时 间 中 。 同 时 ,医生 用 这 种 手动 搜索 的 方法 后 ， 
在 接 下 来 诊断 和 制定 治疗 方案 时 出 现 失 误 的 可 能 性 也 较 高 。 在 全 世界 范围 内 ,大 约 10% 的 
病人 会 受到 医疗 诊断 或 治疗 方案 失误 的 影响 外。 为 了 减少 医生 搜索 疾病 的 工作 量 , 以 降低 
诊断 和 治疗 并 存 疾病 的 失误 率 , 人 们 提出 了 借助 计算 机 和 网 络 技术 的 疾病 诊断 和 治疗 方案 
决策 辅助 系统 ,这 种 决策 辅助 系统 可 以 自动 地 搜索 相关 疾病 信息 ,并 提出 一 系列 的 诊断 和 治 
疗 方案 供 医生 参考 和 选择 。 

现 有 的 诊断 与 治疗 决策 辅助 系统 绝 大 多 数 仅 针对 一 种 疾病 ,由 于 缺少 对 多 种 并 存 疾 病 
之 间 相互 影响 的 考虑 ,无 法 满足 并 存 疾病 中 涉及 的 多 种 疾病 联合 诊断 和 治疗 的 要 求 。 因 此 
在 针对 某 一 种 疾病 的 决策 辅助 系统 的 基础 上 ,并 存 疾 病 的 诊断 与 治疗 决策 系统 应 运 而 生 , 但 
现 有 的 并 存 疾病 诊断 和 治疗 算法 还 比较 少 , 尤 其 是 针对 并 存 疾 病 病人 在 多 种 上 下 文 场景 中 
的 动态 决策 系统 更 少 。 理 论 不 成 熟 ,系统 性 能 也 不 能 满足 实际 需求 ,因此 需要 研究 新 型 的 并 
存 疾病 诊断 和 治疗 决策 辅助 系统 ,而 且 可 以 将 此 系统 同 其 他 计算 机 和 通信 技术 结合 ,进一步 
扩展 到 未 来 的 区 域 性 医疗 健康 监护 网 络 中 。 
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17.1 国内 外 研究 现状 及 发 展 动态 分 析 


由 于 疾病 诊断 和 治疗 的 决策 辅助 系统 在 电子 医疗 监控 网 络 中 所 占据 的 重要 位 置 ,从 电 
子 医 疗 诞生 日 起 就 受到 了 诸多 研究 机 构 的 重视 ,如 美国 英国 、 加 拿 大、 法 国 、 日 本 等 的 研究 
机 构 均 提出 了 相关 的 诊断 和 治疗 决策 算法 ,而 国内 的 清华 大 学 .北京 邮电 大 学 .电子 科技 
大 学 等 诸多 高 校 也 均 开 展 了 相关 的 工作 ,并 取得 了 诸多 创新 性 成 果 。 所 涉及 的 疾病 数量 
分 类 、 疾 病 诊 断 和 治疗 决策 辅助 系统 主要 分 为 单 疾病 决策 辅助 系统 和 并 存 疾 病 决 策 辅助 
系统 。 

作为 并 存 疾病 决策 辅助 系统 的 基础 , 单 疾病 决策 辅助 系统 的 决策 算法 主要 包括 聚 类 分 
析 、 人 工 神 经 网 络 和 决策 树 三 大 类 。 

聚 类 分 析 以 对 象 之 间 的 相似 性 为 基础 ,通过 数学 分 析 的 手段 ,确保 在 一 个 类 别 中 的 对 象 
比 不 在 同一 类 别 中 的 对 象 之 间 具 有 更 多 的 相似 性 。Wagner 等 将 k- 最 近邻 (k-Nearest 
Neighbor,，kNN) 这 一 聚 类 方法 用 于 诊断 前 列 腺 癌 的 决策 辅助 系统 中 ,利用 空间 中 的 每 一 个 
维度 代表 前 列 腺 癌 CT 图 像 中 的 一 个 特征 ,从 而 多 维 空间 中 的 一 个 点 就 代表 了 一 个 病人 的 
CT 图 像样 本 ,通过 对 多 维 空间 中 的 点 进行 聚 类 来 判断 此 病人 是 否 患 有 前 列 腺 癌 "3 。 

人 工 神经 网 络 算法 是 通过 模仿 人 脑 的 思考 过 程 而 提出 的 ,然而 神经 网 络 的 结构 并 不 像 
人 脑 的 结构 那样 复杂 。 通 常 来 说 ,人 工 神经 网 络 是 由 若干 层 相 互 连 接 的 神经 元 组 成 ,前 一 层 
神经 元 的 输出 作为 后 一 层 神 经 元 的 输入 。 具 体 说 来 ,人 工 神经 网 络 又 可 以 分 为 自 组 织 特征 
映射 和 支持 向 量 机 等 。Baxt 等 人 提出 了 采用 自 组 织 特征 映射 算法 诊断 心肌 梗死 的 决策 辅 
助 系统 ,通过 迭代 地 调整 神经 网 络 中 神经 元 的 层 数 以 及 各 层 神经 元 之 间 的 参数 ,建立 了 诊断 
心肌 梗死 的 决策 辅助 系统 中 。Bishop 等 人 、Haykin 等 人 和 Kohonen 等 人 又 分 别提 出 了 更 
高 效 的 自 组 织 特征 映射 算法 ,有 效 地 降低 了 神经 网 络 各 层 之 间 参 数 的 调整 时 间 ,并 将 这 些 算 
法 应 用 到 范围 更 广 的 疾病 诊断 当中 中。Shi 等 人 采用 支持 向 量 机 算法 最 优化 各 组 血样 质 
谱 数 据 间 的 组 间距 离 ,从 而 最 小 化 不 同 血 样 质谱 样本 的 错误 分 类 概率 ,并 将 这 种 方法 应 用 到 
诊断 白血病 当中 0 。 

决策 树 算法 是 通过 进行 一 系列 的 问答 来 做 出 决策 的 ,决策 树 的 输入 是 病人 的 案例 样本 ， 
而 输出 则 是 对 该 病人 的 状况 做 出 的 决策 。 决 策 树 仿照 树 的 层次 结构 ,由 一 系列 节点 组 成 ( 包 
括 一 个 树 根 ,一 系列 树枝 和 树叶 组 成 ) , 树 的 每 一 个 节点 代表 决策 过 程 中 需要 回答 的 一 个 问 
题 。 各 种 决策 树 算法 中 节点 的 连接 顺序 往往 不 同 , 一 种 算法 对 应 一 个 节点 重要 性 的 判断 准 
则 。Quinlan 等 人 提出 了 由 节点 信息 炉 的 大 小 来 衡量 节点 重要 性 的 决策 树 算法 ,并 将 这 一 
算法 应 用 于 诊断 和 和 治疗 高 血压 当中 5 。Babic 等 人 提出 了 采用 基于 模糊 控制 的 决策 树 算 
法 ,并 应 用 于 心脏 病 的 诊断 当中 器 。Sprogar 等 人 提出 了 基于 人 工 神经 网 络 的 决策 树 算法 ， 
并 将 其 应 用 于 心 脑 血管 疾病 的 诊断 当中 ”3 。 北 京 邮 电大 学 康 桂 起 教授 提出 了 基于 多 种 上 
下 文 环 境 的 决策 树 算法 ,并 将 其 应 用 于 高 血压 的 诊断 和 治疗 中 ,决策 时 考虑 到 不 同 病 人 的 特 
点 ,从 而 对 不 同 病 人 做 出 个 性 化 的 诊断 和 治疗 59 。 

Boyd 等 人 讨论 了 直接 将 多 个 单 疾 病 诊 断 和 治疗 的 决策 辅助 系统 用 于 并 存 疾病 的 可 能 
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性 ,每 一 个 决策 辅助 系统 对 应 并 存 疾病 中 的 一 种 疾病 ,结论 是 直接 采用 多 个 单 疾病 决策 辅助 
系统 来 诊断 并 存 疾 病 会 引起 不 良 的 后 果 "””。 这 是 因为 单 疾病 诊断 和 治疗 的 决策 辅助 系统 
是 基于 此 疾病 的 诊断 标准 实现 的 ,而 某 种 疾病 的 诊断 标准 在 制定 时 并 没有 考虑 到 其 他 并 存 
疾病 对 该 疾病 诊断 的 影响 。 因 此 ,有 必要 提出 同时 考虑 多 种 并 存 疾病 之 间 相 互 影 响 的 决策 
辅助 系统 ,但 这 方面 的 研究 还 处 于 萌芽 阶段 。Riano 等 人 提出 了 同时 诊断 肿瘤 和 心脏 病 的 
决策 辅助 系统 ,然而 这 种 系统 需要 医生 引导 计算 机 完成 诊断 ,而 不 能 由 计算 机 自动 完成 诊 
WE, Michalowski 等 人 提出 了 如 何 合并 两 种 单 疾病 诊断 标准 的 方法 ,但 这 种 方法 要 求 诊 
断 标准 中 不 能 存在 对 某 一 条 件 多 次 判断 的 情况 ,如 持续 增加 病人 的 用 药 量 直到 病人 的 某 一 
生理 指标 恢复 正常 。 此 外 ,上 述 并 存 疾病 的 诊断 与 治疗 决策 辅助 系统 都 只 能 对 病人 在 某 
种 临床 情景 中 进行 诊断 和 治疗 。 然 而 ,在 不 同 的 病人 临床 情景 中 ,诊断 标准 往往 发 生 改 变 ， 
如 某 些 疾病 病人 在 睡觉 和 行走 时 应 采用 不 同 的 诊断 标准 。 因 而 ,有 必要 对 多 种 临床 情景 中 
的 并 存 疾 病 诊断 和 治疗 的 决策 系统 进行 研究 。 

为 了 解决 上 述 关键 问 题 , 可 尝试 突破 现 有 的 诊断 和 治疗 决策 辅助 系统 ,采用 约束 性 逻辑 
程序 语言 代表 每 一 种 疾病 的 诊断 标准 ,然后 合并 逻辑 程序 以 建立 逻辑 问题 模型 ti WCG 8 [8] 
题 的 解 就 对 应 并 存 疾病 的 诊断 和 治疗 决策 方案 。 此 外 ,可 尝试 通过 临床 情景 感知 技术 ,制定 
适用 于 多 种 临床 情景 的 诊断 和 治疗 决策 辅助 系统 。 


17.2 技术 路 线 和 方案 





以 约束 性 逻辑 编程 语言 为 主线 ,通过 引入 临床 情景 感知 技术 ,实现 适用 于 多 种 临床 感知 
情景 的 并 存 疾病 诊断 和 治疗 的 决策 辅助 系统 。 通 过 对 多 种 环境 传感器 的 联合 感知 技术 研究 
可 以 实现 并 存 疾病 病人 的 环境 情景 感知 ,通过 对 多 种 行为 传感器 的 联合 感知 技术 的 研究 可 
以 实现 并 存 疾病 病人 的 行为 情景 感知 ,通过 对 多 种 生理 参数 传感器 的 联合 感知 技术 的 研究 
可 以 实现 并 存 疾 病 病 人 的 生理 参数 感知 ,通过 这 三 个 关键 技术 的 研究 可 以 有 效 实 现 并 存 疾 
病 病 人 的 临床 情景 感知 。 通 过 对 约束 性 逻辑 编程 语言 的 研究 可 以 有 效 地 实现 检测 不 同 疾 病 
诊断 和 治疗 标准 之 间 的 矛盾 部 分 ,通过 人 逻辑 变量 蔡 代 方法 的 研究 可 以 有 效 地 实现 消除 不 同 
疾病 诊断 和 治疗 标准 之 间 的 矛盾 部 分 ,通过 这 两 个 关键 技术 的 研究 可 以 有 效 实现 并 存 疾 病 
的 诊断 和 治疗 决策 辅助 系统 。 其 具体 的 技术 路 线 如 图 17-1 所 示 。 

并 存 疾 病 诊断 和 治疗 的 决策 辅助 系统 主要 由 三 部 分 组 成 : 并 存 疾病 诊断 和 治疗 的 决 
策 模 块 ; @ 单 疾病 诊断 和 治疗 方案 的 数据 库 模块 ; 加 临床 情景 感知 模块 。 系 统 框图 如 
图 17-2 所 示 。 

并 存 疾 病 诊 断 和 治疗 的 决策 模块 首先 向 数据 库 模块 发 送 请 求 , 搜 集 并 存 疾病 中 所 有 相关 
疾病 的 诊断 标准 。 数 据 库 模块 将 响应 请 求 ,向 决策 模块 以 流程 图 的 形式 发 送 相关 疾病 的 诊断 
和 治疗 标准 。 同 时 ,决策 模块 向 临床 情景 感知 模块 发 送 请 求 ,搜集 所 有 的 临床 情景 参数 ,包括 
生理 参数 ,环境 参数 和 行为 参数 。 基 于 相关 疾病 的 诊断 和 治疗 流程 图 以 及 临床 情景 参数 ,决策 
模块 将 对 所 有 诊断 和 治疗 标准 对 应 的 流程 图 进行 合并 。 如 果 在 合并 过 程 中 发 现 不 同 流程 图 之 
间 不 存在 矛盾 ,将 输出 合并 之 后 的 流程 图 作为 并 存 疾病 的 诊断 和 治疗 决策 方案 。 如 果 在 合并 
过 程 中 发 现 不 同 流程 图 之 间 存 在 矛盾 , 则 再 次 向 数据 库 模块 和 临床 情景 感知 模块 发 送 请 求 ， 
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图 17-2 决策 辅助 系统 框图 


搜集 存在 矛盾 的 疾病 流程 图 在 当前 临床 情景 下 的 蔡 代 方案 ,并 尝试 消除 不 同 流程 图 之 间 的 
矛盾 。 如 果 举 试 次 数 超过 了 某 一 预定 的 值 , 则 说 明 现 有 数据 库 中 难以 找到 此 类 并 存 疾 病 的 
治疗 决策 方案 ,将 通知 医生 进行 干预 ,来 制定 最 终 的 治疗 方案 。 系 统 的 流程 如 图 17-3 所 示 
具体 的 关键 任务 如 下 。 

COD 并 存 疾病 诊断 和 治疗 的 决策 模块 ; 需要 设计 算法 将 相关 疾病 诊断 和 治疗 的 流程 图 
转换 为 计算 机 能 够 识别 的 逻辑 性 编程 语言 ,通过 逻辑 操作 制定 并 存 疾 病 的 诊断 和 治疗 决策 
方案 。 

(2) 疾病 诊断 和 治疗 方案 数据 库 模块 : 考虑 到 疾病 种 类 的 数量 较 大 ,需要 设计 分 布 式 
数据 存 取 系 统 的 架构 以 及 数据 库 模 块 和 决策 模块 之 间 的 接口 。 

(3) 临床 情景 感知 模块 : 需要 设计 多 种 传感器 网 络 以 获取 临床 情景 参数 ,并 设计 临床 
情景 感知 模块 同 决策 模块 之 间 的 接口 。 

下 面 将 分 别针 对 这 些 问 题 ,给 出 相应 的 解决 方案 。 


1. 并 存 疾病 的 诊断 和 治疗 决策 模块 设计 


并 存 疾病 诊断 和 治疗 的 决策 模块 设计 首先 需要 将 相关 疾病 诊断 和 治疗 的 流程 图 转化 成 
计算 机 能 够 识别 的 逻辑 语言 ,本 项 目 采 用 逻辑 性 编程 语言 来 表示 疾病 的 诊断 和 治疗 流程 图 ， 
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图 17-3 决策 辅助 系统 流程 图 


前 期 工作 中 对 疾病 流程 图 到 逻辑 性 编程 语言 的 转换 进行 了 较为 充分 的 研究 ,下 面 以 深 静 脉 
血栓 和 高 血压 的 诊断 和 治疗 标准 的 流程 图 为 例 说 明 。 如 图 17-4 所 示 , 深 静脉 血栓 的 诊断 和 
治疗 标准 流程 图 由 一 系列 路 径 组 成 ,每 条 路 径 对 应 着 病人 不 同 的 状况 。 例 如 , 当 病 人 有 严重 
出 血 史 时 ,通常 采用 下 腔 静 脉 过 滤器 的 方法 治疗 ,否则 采用 抗 血 剂 或 者 华 法 林 处 理 , 取 决 于 
病人 是 否 患 有 肝素 诱导 的 血小板 减少 症 。 每 条 路 径 都 可 以 转换 成 一 条 逻辑 性 编程 语句 , 当 
逻辑 性 编程 语句 为 真 " 时 就 表示 对 应 的 路 径 根据 病人 的 状况 被 选择 了 。 由 于 一 个 流程 图 中 


@ 
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只 有 一 条 路 径 被 选择 ,因此 不 同 路 径 对 应 的 逻辑 性 编程 语句 之 间 采 用 ”或 ?的 关系 连接 ,从 而 
每 一 种 疾病 的 流程 图 就 对 应 着 一 组 逻辑 性 编程 语句 。 类 似 地 ,高 血压 病人 的 诊断 和 治疗 标 
准 流程 图 ,如 图 17-5 所 示 , 当 病人 的 高 血压 情况 为 轻 度 时 ,只 需要 进一步 观察 病人 的 情况 ; 
当 病 人 的 高 血压 情况 为 中 度 时 ,需要 口服 降 压 药 ; 当 病人 的 高 血压 情况 为 高 度 时 ,需要 使 用 
IV 型 降 压 药 。 相 应 地 ,可 以 用 一 组 逻辑 性 编程 语句 代表 高 血压 诊断 和 治疗 的 流程 图 。 而 当 
高 血压 和 深 静 脉 血 栓 的 诊断 和 治疗 标准 之 间 存在 矛盾 时 , 即 口 服 降 压 药 和 抗 凝血 剂 不 能 同 
时 服用 , 且 口 服 降 压 药 和 华 法 林 不 能 同时 服用 时 ,相应 的 逻辑 性 编程 语言 为 not Coahta A 


wa) fll notCoahta A aca) 。 









逻辑 编程 语句 


i hsbt A ive A fup 


not(hsbt) ^ hhit ^ aca ^ fufp. 








not(hsbt) ^ not(hhit) ^ aw A fufp 
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图 17-4 深 静 脉 血栓 诊断 和 治疗 流程 图 
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逻辑 编程 语句 





not(Ir) A mr ^ oahta A fufp 





not(Ir) ^ not(mr) ^ ivahta A fufp. 











图 17-5 高 血压 诊断 和 治疗 流程 图 
因此 ,两 种 疾病 的 诊断 和 治疗 标准 的 合并 就 等 价 于 如 表 17-1 所 示 的 逻辑 性 编程 语言 








模型 。 
表 17-1 两 种 疾病 的 诊断 和 治疗 标准 
逻辑 性 编程 语言 
深 静 脉 血栓 | (hsbt A ivcf A fufp) V CnotChsbt) A hhit A aca A fufp) V CnotChsbt) A notChhit) A aw A fufp) 
高 血压 (dr A fufp) V (not(lr) A mr A oahta A fufp) V CnotClr) A not(mr) A ivahta A fufp) 
矛盾 notCoahta 人 wa) 





notCoahta A aca) 





此 模型 可 以 在 Zinc 平台 上 运行 ,此 模型 如 果 有 解 , 则 这 组 解 作为 并 存 疾病 的 治疗 诊断 
和 治疗 决策 方案 输出 ,否则 说 明 不 同 的 疾病 诊断 和 治疗 标准 的 流程 图 之 间 存 在 矛盾 。 通 过 
检测 每 一 项 矛盾 对 应 的 逻辑 性 编程 语句 . 即 notCoahta A wa) HI notCoahta A aca) ,可 以 确定 
哪 一 项 矛盾 发 生 了 ,从 而 检测 到 不 同 疾病 流程 图 之 间 的 矛盾 。 
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此 方案 需要 将 并 发 疾病 的 多 种 相关 疾病 标准 的 流程 图 进行 合并 。 因 此 ,此 方案 将 在 检 
测 并 发 疾病 诊断 和 治疗 标准 流程 图 之 间 了 矛盾 的 基础 上 ,利用 逻辑 变量 替换 的 方法 消除 不 同 
疾病 标准 流程 图 之 间 的 矛盾 ,从 而 建立 并 发 疾病 诊断 和 治疗 的 决策 系统 。 

2. 适用 于 大 量 疾病 诊断 和 治疗 标准 的 数据 库 模块 设计 

首先 ,根据 中 国 临床 指南 文库 把 相应 的 疾病 诊断 和 治疗 标准 转化 成 统一 的 数据 形式 , 采 
用 流程 图 的 结构 存储 诊断 和 治疗 标准 ,如 图 17-4 和 图 17-5 所 示 。 然 后 ,将 疾病 诊断 和 治疗 
标准 的 流程 图 转换 为 对 应 的 逻辑 性 编程 语言 ,并 将 该 疾病 的 名 称 ( 或 疾病 分 类 编码 ) 和 对 应 
的 逻辑 性 编程 语言 作为 Hash 表 的 键 和 值 关联 起 来 。 最 后 ,对 于 大 量 的 Hash 表 中 的 键 - 值 
对 ,采用 分 布 式 系统 (例如 Hadoop 系统 ) 进 行 并 行 存 取 。 

具体 来 说 ,疾病 的 诊断 和 治疗 标准 由 分 布 于 多 个 计算 机 节点 上 的 若干 个 数据 库 系统 组 
成 ,每 个 节点 代表 一 类 疾病 ( 某 一 段 疾病 分 类 编码 区 间 ) ,分 布 式 系统 提供 有 效 的 存 取 手段 来 
操纵 这 些 节 点 上 的 子 数据 库 。 尽 管子 数据 库 分 布 在 地 理 位 置 不 同 的 节点 上 ,整个 分 布 式 数 
据 库 在 使 用 上 可 视 为 一 个 完整 的 数据 库 。 它 适用 于 海量 数据 的 存 取 算法 进行 研究 ,尤其 是 
设计 基于 Hadoop 的 并 行 系统 架构 。 

3. 临床 情景 感知 模块 设计 

临床 情景 感知 部 分 主要 包括 三 组 情景 传感器 同 决策 模块 之 间 的 通信 ,如 图 17-6 所 示 。 
这 三 组 情景 传感器 包括 生理 参数 传感器 (图 中 用 红色 表示 ) ,环境 传感器 (图 中 用 黄色 表示 ) 
和 行为 传感器 (图 中 用 绿色 表示 ) ,它们 收集 相关 的 数据 后 ,通过 网 关 传递 给 决策 模块 作为 决 
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图 17-6 传感器 网 络 协作 感知 临床 情景 


传感器 网 络 中 的 关键 问题 包括 资源 分 配 问 题 和 生理 参数 传感器 的 误差 分 析 。 通 过 跨 层 
设计 提高 医疗 传感器 网 络 的 使 用 寿命 ,同时 满足 传感器 数据 传输 的 性 能 要 求 。 通 过 传感器 
网 络 的 资源 分 配 算法 ,进一步 提升 网 络 的 使 用 寿命 。 通 过 信号 处 理 手 段 ,降低 生理 参数 传 感 
器 收集 到 的 数据 中 的 噪声 ,从 而 提高 决策 模块 的 信号 噪声 比 ,进而 提高 决策 的 准确 度 。 
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并 发 疾病 的 临床 意义 对 设计 决策 辅助 系统 有 什么 帮助 ? 

并 存 疾 病 诊断 和 治疗 的 决策 辅助 系统 由 哪些 部 分 组 成 ? 

请 简 述 并 存 疾病 诊断 和 治疗 辅助 决策 系统 的 技术 实施 路 线 。 
采集 生理 数据 时 ,传感器 网 络 设计 时 的 关键 技术 有 哪些 ? 
典型 的 可 穿戴 式 生理 数据 传感器 有 哪些 ? 
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除了 互联 网 公司 ,医疗 行业 是 最 先 结合 大 数据 分 析 的 传统 行业 之 一 ,医疗 行业 发 展 早期 
就 遇 到 了 处 理 海量 数据 的 挑战 中 。 近 年 来 ,很 多 国家 都 在 积极 地 推进 医疗 信息 化 的 发 展 , 这 
使 得 很 多 医疗 机 构 都 投入 大 量 人 力 和 物力 来 推进 行业 的 大 数据 分 析 。 因 此 ,医疗 行业 将 和 
金融 ,电信 等 行业 一 起 首先 迈 和 人 大 数据 时 代 叫 。 麦 肯 锡 在 其 2014 年 报告 (医疗 行业 的 大 数 
据 革命 》 中 指出 ,排除 体制 障碍 ,大 数据 分 析 可 以 帮助 美国 的 医疗 服务 业 一 年 创造 3000 亿美 
元 的 附加 价值 9 。 本 章 基 于 慢 病 门诊 费用 结构 .门诊 治疗 情况 ,及 患者 人 群 特征 等 因素 进行 
分 析 , 试 图 探索 这 些 因素 对 住院 费用 结构 的 影响 ,从 而 开发 一 套 能 够 衡量 住院 费用 合理 性 的 
预测 系统 。 具 体 来 说 ,预测 模型 的 过 程 分 为 三 个 阶段 : 数据 准备 阶段 ,模型 变量 筛选 阶段 ， 
模型 构建 阶段 。 


18.1 数据 准备 阶段 


目前 数据 来 源 主要 包括 三 部 分 : 门 特 、 住 院 ,以 及 关于 医保 /医院 的 静态 属性 。 门 特 部 
分 的 表 包 括 门 特 结算 表 ( 主 表 ) , 门 特 结算 明细 门 特 诊断 表 ; 住院 部 分 的 表 包 括 住 院 结算 表 
CERO ,住院 结算 明细 表 , 住 院 诊 断 表 ,住院 登记 表 ; 关于 医保 /医院 静态 属 型 的 表 包 括 医 疗 
机 构 注 册 表 (医院 分 级 ) 、 医 保 项 目 表 、 参 保 项 目 表 。 数 据 准 备 阶段 将 所 有 与 费用 有 关 的 数据 
表 , 按 照 建 模 需求 进行 整合 ,成 为 一 张 基础 表 , 作 为 下 一 阶段 建 模 的 基础 。 





18.2 模型 变量 选择 和 转换 


通过 文献 综述 和 数据 质量 分 析 , 与 业务 部 门 沟通 后 ,初步 第 选 出 32 个 可 能 相关 的 自 变 量 
(原本 筛选 出 43 个 变量 ,但 11 个 变量 的 值 为 空 ) ,而 因 变 量 是 日 均 住院 费用 ,如 表 18-1 所 示 。 


表 18-1 
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初 第 模型 变量 


字 段 名 字段 含义 































































































X; :GENDER. CODE 性 别 

X;:PSN AGE 参 保 人 年 龄 

X, :PSN_ACC_AMT 门 特 个 人 账户 支付 金额 
X, FUND AMT 门 特 统筹 基金 支付 金额 
Xs :CIVIL_AMT 门 特 公务 员 补助 支付 金额 
X,:CASH AMT 门 特 现金 支付 金额 
X;;CHECK CNT 门 特 结算 单 总 数量 

Xs :ITEM_CNT_TOTAL 门 特 医疗 项 目 总 数 
X,:AMT_TOTAL 门 特 费 用 总 金额 
Xio:SELF_PAY_AMT_TOTAL 门 特 自 付 金额 

Xn :OUT. LIMIT AMT TOTAL 门 特 超出 上 限 费 用 

Xi : AMT 1 TOTAL 门 特 西药 ( 含 中 成 药 ) 金 额 
X :AMT_2_TOTAL 门 特 中 草药 金额 
Xu:AMT_3_TOTAL 门 特 治疗 费 ( 含 特殊 治疗 ) 金 额 
Xi :AMT 4_TOTAL 门 特 检查 费 金额 
Xie:AMT 5 TOTAL 其 他 门 特 金额 

Xy :PSN. ACC AMT I 住院 个 人 账户 支付 金额 
Xi :FUND_AMT_I 住院 统筹 基金 支付 金额 
Xy :CIVIL AMT I 住院 公务 员 补 助 支付 金额 
X» :CASH_AMT I 住院 现金 支付 金额 

Xn :CHECK_CNT_I 住院 结算 单 总 数量 

Xn :FUND_RANGE_AMT I 住院 统筹 基金 金额 上 限 
Xn :ITEM_CNT_TOTAL_I 住院 医疗 项 目 总 数 

Xu :SELF. PAY AMT. TOTAL I 住院 自 付 金额 

X4 ;OUT LIMIT AMT TOTAL I 住院 超出 上 限 费用 

Xas :AMT 1. TOTAL I 住院 西药 ( 含 中 成 药 ) 金 额 
Xa :AMT 2 TOTAL I 住院 中 草药 金额 

X :AMT 3 TOTAL I 住院 治疗 费 ( 含 特殊 治疗 ) 金 额 
Xz» :AMT 4 TOTAL I 住院 检查 费 金额 

Xa :AMT_5_TOTAL I 住院 其 他 费用 金额 
X4;VISIT TYPE PRES CODE 门 特 来 访 方式 
X4;VISIT TYPE INBED CODE 住院 来 访 方式 





Y:Y_FLAG 





日 均 住院 费用 金额 (二 分 类 ) 





18.2.1 模型 变量 的 选择 


具体 来 说 , 参 保 人 静态 属性 包括 性 别 、. 年 龄 (X, X) ,其 他 静态 属性 在 目前 费用 系统 中 
为 空 , 暂 不 能 使 用 。 参 保 人 动态 属性 分 为 门 特 和 住院 等 两 部 分 。 门 特 的 费用 结构 (药品 、 治 
疗 、 检 查 费 用 等 ) 和 报销 结构 情况 (Xs: ~ Xas ) ,及 门 特 来 访 方式 (Xs ) 的 相关 变量 ,直接 或 间 


e 
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接地 反映 了 参 保 人 在 门 特 的 治疗 和 给 药 情况 以 及 患者 病情 。 同 理 , 住 院 的 费用 结构 (药品 、 
治疗 、 检 查 费用 等 ) 和 报销 结构 情况 (Xi ~ X0 ,以 及 住院 方式 (Xs: ) 的 相关 变量 , 则 直接 或 
间接 地 反映 了 参 保 人 在 住院 时 的 治疗 和 给 药 情况 ,及 患者 病情 。 当 然 ,如 在 之 后 模型 深入 优 
化 过 程 中 ,能 引入 更 多 参 保 人 静态 属性 及 更 加 直接 的 衡量 患者 病情 及 治疗 情况 的 变量 ,模型 
效果 会 更 加 理想 。 


18.2.2 模型 变量 的 转换 


为 了 保证 模型 的 稳定 性 ,需要 去 除 连续 变量 样本 非 均 匀 分 布 的 影响 。 通 过 对 连续 型 变 
量 进行 重新 分 档 ,确保 每 一 档 中 变量 的 样本 数量 比较 接近 ,这 是 为 了 提升 模型 预测 值 的 区 分 
度 以 及 预测 能 力 。 表 18-2 介绍 了 自 变 量 分 档 的 业界 普遍 标准 : 每 一 个 变量 的 分 组 数量 
在 2 一 8 组 之 间 ; 各 个 自 变 量 的 组 内 IV 值 均 在 0.03 以 上 ,以 衡量 变量 的 整体 区 分 度 ; 各 个 
自 变量 的 组 内 TV. 值 差距 在 0. 1 以 上 ,以 衡量 组 间 区 分 度 ; 各 个 自 变量 与 因 变量 的 相关 性 在 
0.1 以 上 。 其 中 ,IV 值 的 计算 公式 如 下 : 
变量 第 i 个 取 值 的 IV; 二 (变量 第 i 个 取 值 中 高 住院 费用 的 个 数 一 变 量 第 i 个 取 值 中 低 
住院 费用 的 个 数 ) X ln(( 变 量 第 i 个 取 值 中 高 住院 费用 的 个 
数 / 高 住院 费用 总 数 )/( 变 量 第 i 个 取 值 中 低 住院 费用 的 个 数 / 
低 住院 费用 总 数 )) 


变量 总 的 IV = 》) 变量 第 i 个 取 值 的 IV; 
表 18-2 ”连续 型 自 变量 的 分 档 标准 











标 x 参考 标准 值 
分 组 数 2—8 8 
自 变量 最 小 TV. 值 (衡量 变量 整体 区 分 度 ) 0.03 
分 档 组 间 TV. 值 差 (衡量 组 间 区 分 度 ) 0.1 
与 了 的 相关 性 0.1 








基于 表 18-2 的 连续 型 自 变 量 的 分 档 标准 ,进行 多 次 调整 后 ,展示 了 各 个 自 变 量 的 分 档 
规则 (分 类 型 自 变量 还 保留 原始 变量 的 分 档 规 则 ) , 详 见 表 18-3。 表 18-3 给 出 了 自 变量 的 分 
档 规则 ,其 中 包含 变量 分 类 的 数量 以 及 分 类 的 临界 点 。 分 类 的 临界 点 包括 以 0 和 非 0 进行 
分 类 ,也 包括 以 不 同 的 百 分 位 数 进行 分 类 。 


表 18-3 各 个 自 变量 的 分 档 规 则 




















字 段 名 分 档 规 则 
X; :GENDER_CODE 采用 2 分 类 变量 (沿用 该 分 类 变量 的 分 档 方式 ) 
X;;PSN AGE 采用 8 分 类 变量  percentile[ 12. 5. 25, 37.5, 50, 62.5, 75, 87.5] 
X; ;PSN ACC AMT 采用 6 分 类 变量 ,0 以 及 percentile[ 20,40,60,80] 
X, ;FUND AMT 采用 6 分 类 变量 ,0 以 及 percentile[ 20.40.60,80] 
X; :CIVIL_AMT 采用 6 分 类 变量 ,0 以 及 percentile[20,40,60,80] 
Xs :CASH_AMT 采用 6 分 类 变量 ,0 以 及 percentile[ 20,40,60,80] 
X; :CHECK_CNT 采用 4 分 类 变量 ,percentile[25, 50, 75] 
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续 表 
字 段 名 分 档 规 则 
Xs :ITEM_CNT_TOTAL 采用 8 分 类 变量 ,percentile[12.5, 25, 37.5. 50. 62.5. 75, 87.5] 
X :AMT_TOTAL 采用 8 分 类 变量 percentile[ 12. 5, 25, 37.5. 50, 62.5. 75, 87.5] 





X4 ;SELF PAY AMT TOTAL 采用 8 分 类 变量 ,percentile[12.5, 25, 37.5, 50, 62.5. 75, 87.5] 





X4 ;OUT LIMIT AMT TOTAL JH 6 分 类 变量 ,0 以 及 percentile[ 20,40,60,80] 






































Xi : AMT. 1. TOTAL 采用 8 分 类 变量 ,percentile[12. 5, 25, 37.5, 50, 62.5, 75, 87.5] 
Xi AMT 2 TOTAL 采用 6 分 类 变量 ,0 以 及 percentile[ 20,40,60,80] 
Xu:AMT_3_TOTAL 采用 6 分 类 变量 ,0 以 及 percentile[20,40,60,80] 
Xis:AMT_4_TOTAL 采用 2 分 类 变量 ,0 以 及 非 0 

Xie:AMT_5_TOTAL 采用 2 分 类 变量 ,0 以 及 非 0 

Xy :PSN_ACC_AMT I 采用 2 分 类 变量 ,0 以 及 非 0 

Xis:FUND_AMT I 采用 3 分 类 变量 ,0 以 及 percentile[ 501 

Xi :CIVIL AMT I 采用 2 分 类 变量 ,0 以 及 非 0 

Xao:CASH_AMT_I 采用 3 分 类 变量 ,0 以 及 percentile[ 501 

Xn :CHECK_CNT_I 采用 3 分 类 变量 ,percentile[33. 3,66. 6] 

X4 :FUND_RANGE_AMT I 采用 3 分 类 变量 ,percentile[33. 3,66. 6] 

Xz :ITEM_CNT_TOTAL_I 采用 8 分 类 变量 ,percentile[12.5, 25, 37.5, 50, 62.5, 75, 87.5] 





X4;SELF PAY AMT TOTAL I | 采用 3 分 类 变量 ,percentile[33. 3,66. 6] 
X:s :OUT. LIMIT AMT TOTAL I | 采用 8 分 类 变量 ,percentile[12.5, 25, 37.5, 50, 62.5, 75, 87.5] 























Xs :AMT 1 TOTAL I 采用 3 分 类 变量 , percentile[ 33. 3,66. 6] 
X5 :AMT 2 TOTAL I 采用 6 分 类 变量 ,0 以 及 percentile[ 20, 40, 60, 80] 
Xs :AMT_3_TOTAL_I 采用 3 分 类 变量 ,percentile[33. 3,66. 6 ] 
Xa :AMT_4_TOTAL_I 采用 3 分 类 变量 percentile[ 33. 3,66. 6] 
Xao:AMT_5_TOTAL_I 采用 3 分 类 变量 ,percentile[33. 3,66. 6] 





X4;VISIT TYPE PRES CODE 采用 2 分 类 变量 (沿用 该 分 类 变量 的 分 档 方式 ) 
Xa4;VISIT TYPE INBED CODE KH 3 分 类 变量 (沿用 该 分 类 变量 的 分 档 方式 ) 
Y:Y_FLAG 采用 2 分 类 变量 ,percentileL50] 














以 X2: PSN. AGE 为 例 , 我 们 采用 8 分 类 对 变量 进行 分 类 。 分 类 的 临界 点 分 别 为 12. 5 
百 分 位 数 、25 百 分 位 数 、37.5 百 分 位 数 、50 百 分 位 数 、62. 5 百 分 位 数 、75 百 分 位 数 、87.5 百 
分 位 数 。 以 X3:PSN_ACC_AMT 为 例 ,我 们 采用 6 分 类 对 变量 进行 分 类 。 先 将 变量 分 为 0 
和 非 0 两 大 类 样本 ,再 将 非 0 样本 按照 临界 点 20 百 分 位 数 .40 百 分 位 数 、60 百 分 位 数 、80 
百 分 位 数 进行 5 分 类 ,从 而 总 共 包 括 6 分 类 。 以 X15:AMT_4_TOTAL 为 例 ,我 们 采用 0 
和 非 0 对 变量 进行 分 类 。 


18.2.3 饰 选 模型 变量 


基于 变量 分 类 规则 ,我 们 对 IV 值 进行 比较 。 再 根据 IV 值 的 筛选 标准 ,筛选 出 最 终 进 
入 模型 的 17 个 自 变量 ,如 表 18-4 所 示 。 表 18-4 展示 了 进入 模型 的 TV. 值 较 高 的 自 变量 ,其 
中 最 后 两 个 变量 一 一 性 别 和 年 龄 ,虽然 指标 低 , 但 考虑 到 这 是 仅 存 的 与 个 人 静态 属性 相关 的 
变量 , 故 最 终 仍 考虑 其 进入 模型 。 
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表 18-4 进入 最 终 模型 的 17 个 自 变 量 TV 值 ( 降 序 ) 


















































字 段 名 字段 含义 IV 
X4:SELF PAY AMT TOTAL I 住院 自 付 金额 174.47% 
X4 :FUND_RANGE_AMT_I 住院 统筹 基金 金额 上 限 130.72% 
X» :AMT 4 TOTAL I 住院 检查 费 金额 73.47% 
X» CASH AMT I 住院 现金 支付 金额 67. 7994 
X» :AMT 5 TOTAL I 住院 其 他 费用 金额 60. 87% 
Xa :AMT. 3 TOTAL I 住院 治疗 费 ( 含 特殊 治疗 ) 金 额 56. 93% 
X4:AMT 1 TOTAL I 住院 西药 ( 含 中 成 药 ) 金 额 53.33% 
Xs :OUT_LIMIT_AMT_TOTAL I 住院 超出 上 限 费 用 36.07% 
Xa :CHECK_CNT_I 住院 结算 单 总 数量 16.77% 
Xi :PSN_ACC_AMT_I 住院 个 人 账户 支付 金额 12. 4094 
Xs ;VISIT. TYPE INBED CODE 住院 来 访 方式 5.36% 
X, :FUND_AMT 门 特 统筹 基金 支付 金额 5. 20% 
Xw :SELF PAY AMT TOTAL 门 特 自 付 金额 4.30% 
X,:AMT_TOTAL 门 特 费 用 总 金额 3. 89% 
Xi : AMT. 1. TOTAL 门 特 西药 ( 含 中 成 药 ) 金 额 3.34% 
X;:PSN AGE 参 保 人 年 龄 0.56% 
X; :GENDER_CODE 性 别 0. 3994 











18.3” 建 模 过 程 


基于 表 18-4 中 选取 的 17 个 变量 ,我 们 首先 对 上 述 变 量 进行 证 据 权 重 (WOE) 转 换 , 从 而 
将 转换 后 的 变量 带 入 模型 中 。 

WOE 转换 的 目的 是 将 所 有 的 变量 刻度 归 一 化 ,从 而 降低 由 于 变量 单位 刻度 不 同 而 导 
致 的 对 结果 的 影响 。WOE 的 计算 公式 为 : 

变量 第 i 个 取 值 的 WOE, — In CHE fiESIS i 个 取 值 中 高 住院 费用 的 个 数 /高 住院 费用 总 
数 )/( 变 量 第 i 个 取 值 中 低 住院 费用 的 个 数 / 低 住 院 费 用 总 数 )) 

我 们 以 患者 性 别 这 一 变量 为 例 , 曾 述 WOE 的 转换 过 程 如 表 18-5 所 示 。 从 表 18-5 中 可 
以 发 现 , 患 者 性 别 这 一 变量 的 取 值 ( 男 和 女 ) ,经 过 WOE 转换 后 ,分 别 用 0.0667 和 一 0. 0577 
这 两 个 数值 代替 。 


表 18-5 患者 性 别 的 WOE 转换 过 程 











变 量 SERRA 低 住院 费用 WOE fü 
X, :患者 性 别 
男 5599 5239 0.0667 
* 6079 6442 —0. 0577 
总 计 11 678 11 681 nd 














我 们 将 17 个 变量 分 别 进行 WOE 转换 之 后 ,代入 到 模型 当中 。 我 们 选取 的 模型 算法 包 
括 决策 树 (C4. 5), Logistic 回归 、AdaBoost 分 类 器 。 其 中 ,决策 树 (C4. 5), Logistic 回归 都 
是 基本 的 分 类 器 ,而 AdaBoost 分 类 器 是 基于 基本 分 类 器 的 一 种 复合 分 类 器 。 








第 18 章 。 基于 医保 数据 的 预测 分 析 应 




















决策 树 (Decision Tree) 是 直观 运用 概率 分 析 的 一 种 图 解法 。 由 于 这 种 决策 分 支 画 成 图 
形 很 像 一 棵 树 的 枝 干 , 故 称 决策 树 。 决 策 树 代 表 一 类 算法 ,C4. 5 是 其 中 比较 典型 的 一 种 算 
法 。C4.5 AAR ARK EFE E, URRE; 并 采用 后 剪 枝 以 抑制 不 必要 的 决策 分 
支 的 生长 。 

Logistic 回归 是 一 种 广义 线性 回归 ,因此 与 多 重 线 性 回归 分 析 有 很 多 相同 之 处 。 它 们 的 
模型 形式 基本 上 相同 ,都 具有 wz 十 b 的 形式 ,其 中 ,zw A b ERREX Logistic 回归 则 通过 
Logistic 函数 ( 记 为 工 ) 将 wz 十 b X3 E — 4 eR s p: p— L Gwa D) ,然后 根据 户 与 1 一 户 的 
大 小 决定 因 变 量 的 值 。 

AdaBoost 是 一 种 迭代 算法 ,其 核心 思想 是 针对 同一 个 训练 集训 练 不 同 的 分 类 器 ( 弱 分 
类 器 ) ,然后 把 这 些 弱 分 类 器 集合 起 来 ,构成 一 个 更 强 的 最 终 分 类 器 ( 强 分 类 器 )。 其 算法 本 
身 是 通过 改变 数据 分 布 来 实现 的 , 它 根 据 每 次 训练 集 之 中 每 个 样本 的 分 类 是 否 正确 ,以 及 上 
次 的 总 体 分 类 的 准确 率 , 来 确定 每 个 样本 的 权 值 。 将 修改 过 权 值 的 新 数据 集 送 给 下 层 分 类 
器 进行 训练 ,最 后 将 每 次 训练 得 到 的 分 类 器 融合 起 来 ,作为 最 后 的 决策 分 类 器 。 使 用 
AdaBoost 分 类 器 可 以 排除 一 些 不 必要 的 训练 数据 特征 ,并 放 在 关键 的 训练 数据 上 面 。 


18.4 ”模型 效果 


基于 决策 树 (C4. 5)、 Logistic 回归 、AdaBoost 分 类 器 ,我们 随机 选取 全 部 数据 的 70% 作 
为 训练 数据 ,对 分 类 器 进行 训练 。 此 外 ,我 们 使 用 其 余 的 30% 数 据 作 为 测试 数据 ,评估 分 类 
器 的 预测 准确 度 。 当 测试 数据 的 实际 结果 和 模型 预测 结果 一 致 时 ,我 们 认为 该 分 类 器 预测 
准确 ,否则 该 分 类 器 预测 错误 。 预 测 的 准确 度 定义 为 准确 预测 的 次 数 占 预 测 总 次 数 的 比例 ， 
结果 如 表 18-6 所 示 。 


表 18-6 各 种 分 类 器 的 预测 准确 度 ( 全 部 数据 , 共 23 359 条 数据 ) 


分 类 器 名 称 预测 准确 度 








决策 树 90. 15% 
Logistic 回归 71.5796 
AdaBoost 分 类 器 | 90. 1826 





从 住院 费用 的 预测 结果 可 以 看 出 ,AdaBoost 分 类 器 和 决策 树 的 预测 能 力 较 强 , 都 超过 
T 90% ,而 Logistic 回归 的 预测 能 力 稍 差 ,在 7526 — 77 6 Ze. AEREN Logistic 回 
归 要 求 自 变量 之 间 的 共 线 性 较 小 , 即 自 变量 之 间 是 独立 的 。 然 而 ,我 们 的 自 变 量 之 间 存 在 着 
一 定 的 共 线 性 , 故 Logistic 模型 的 效果 不 佳 。AdaBoost 分 类 器 和 决策 树 则 并 没有 对 自 变量 
之 间 的 共 线 性 或 独立 条 件 有 明确 的 要 求 , 当 自 变量 之 间 存 在 较 强 的 共 线 性 时 ,模型 预测 效果 
也 较 好 。 

对 于 参 保 人 患 有 肿瘤 疾病 的 数据 ,我 们 单独 进行 建 模 , 其 主要 原因 是 : (D RA rp UT 
肿瘤 的 比例 在 所 有 疾病 中 最 高 ; @ 思 肿瘤 疾病 基本 没有 并 发 症 , 因 此 可 以 单独 对 肿瘤 患者 的 
数据 进行 建 模 。 在 选取 肿瘤 病人 的 数据 时 ,主要 观察 门 特 疾病 类 型 和 住院 疾病 类 型 这 两 个 
变量 ,并 将 两 个 变量 中 至 少 一 个 的 取 值 含有 “肿瘤 ”或 “ 癌 ” 关 键 字 的 数据 单独 取出 ,共计 
1844 条 数据 。 模 型 预测 结果 如 表 18-7 所 示 , AdaBoost 分 类 器 和 决策 树 的 预测 能 力 仍然 较 
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强 , 都 超过 了 92% ,而 Logistic 回归 的 预测 能 力 仍然 较 差 ,在 80% 左 右 。 
表 18-7 各 种 分 类 器 的 预测 准确 度 ( 肿 瘤 疾病 数据 , 共 1844 条 数据 ) 


分 类 器 名 称 预测 准确 度 














决策 树 92.65% 

Logistic 回归 80. 00% 

AdaBoost 分 类 器 93.47% 
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习题 


1. 在 模型 准备 阶段 ,描述 连续 型 自 变量 的 分 档 规则 。 
2. 简 述 统计 指标 IV 在 模型 中 的 应 用 原理 ; 简 述 IV 的 公式 及 在 建 模 过 程 中 的 应 用 


3. 简 述 统计 指标 WOE 在 模型 中 的 应 用 原理 。 
4. 简 述 决策 树 (C4. 5) 的 算法 原理 。 
5. 简 述 Logistic 回归 的 算法 原理 。 








2015 年 3 月 ,在 政府 工作 报告 中 首次 提出 “互联 网 十 ”行动 计划 ,这 意味 着 无 处 不 在 的 
互联 网 相关 算法 数据 、 知 识 , 及 技术 必然 成 为 产业 升级 的 底层 支撑 和 有 力 保障 。 各 行 各 业 
对 于 互联 网 相关 技术 呈现 高 度 关注 ,并 随时 保持 跃跃欲试 的 姿态 。 但 通过 对 互联 网 数据 产 
业 的 观察 发 现 ,数据 分 析 在 互联 网 行业 的 应 用 成 熟 案例 仍 寥寥 无 几 ,能 在 行业 中 分 享 出 来 的 
经 典 案例 更 是 屈指 可 数 。 

互联 网 数据 分 析 属于 应 用 性 极 强 的 领域 。 要 想 在 此 领域 有 所 建树 ,必须 具备 计算 机 专 
业 技 能 、 数 学 专业 能 力 、 对 商业 的 敏锐 嗅觉 等 复合 能 力 , 这 绝 非 易 事 。 领 英 最 新 发 布 了 《2016 
年 中 国 互联 网 最 热 职 位 人 才 报 告 》, 该 报告 基于 互联 网 平台 上 约 50 万 的 中 国 互联 网 行业 人 
才 的 相关 数据 ,分 析 当 前 互联 网 行业 需求 最 火热 的 “6 大 职位 ”。 该 报告 显示 ,数据 分 析 人 才 
的 供给 指数 最 低 , 仅 为 0.05, 属 于 高 度 稀缺 。 领 英 中 国 大 数据 团队 负责 人 叶 晓 敏 表 示 ,“ 数 
据 分 析 人 才 稀 缺 主 要 有 三 个 原因 : 第 一 , 近 几 年 互联 网 在 垂直 细 分 领域 ,如 互联 网 金融 、 线 
上 到 线 下 的 整合 等 ,竞争 愈加 激烈 ,呈现 出 精益 化 运营 的 发 展 趋势 ,这 需要 大 量 的 数据 分 析 
人 才 来 应 对 ; 第 二 , 随 着 硬件 成 本 降低 ,分 布 式 计算 技术 的 发 展 ,大 数据 相关 的 理论 和 技术 
也 在 发 生 着 重大 突破 ,而 掌握 最 新 大 数据 技术 的 人 才 还 不 多 ; 第 三 ,在 人 才 培 养 方面 ,尽管 
数学 、 统 计 、 计 算 机 专业 的 优秀 毕业 生 储 备 量 很 大 ,但 实际 上 ,数据 分 析 工 作 首先 需要 了 解 企 
业 业 务 特点 和 需求 ,缺乏 经 验 的 应 届 生 往往 还 不 具备 这 样 的 能 力 中 ”所 以 ,以 上 提 及 的 种 种 
原因 形成 了 中 国 互联 网 分 析 领 域 的 现状 ,但 从 另 一 个 角度 看 ,这 样 的 现状 也 是 这 个 时 代 的 机 
遇 , 而 机 遇 能 带 来 无 限 的 可 能 性 。 

本 章 从 行业 实践 的 角度 ,对 三 个 互联 网 行业 的 分 析 案 例 娓 娓 道 来 ,以 维 读 者 ; 试图 通过 
这 样 的 展示 ,在 一 定 程度 上 为 我 们 未 来 深入 的 探讨 .交流 分 析 相 关 的 案例 做 铺垫 。 这 三 个 分 
析 案 例 包括 电 商 流程 管理 分 析 \ 用 户 消费 行为 分 析 , 以 及 送 货 速度 相关 性 分 析 。 电 商 流 程 分 
析 案 例 利 用 后 台数 据 库 沉 淀 的 数据 ,对 电 商 流程 进行 梳理 ,从 而 提高 客户 体验 满意 度 。 用 户 
消费 行为 分 析 的 案例 利用 数据 仓库 中 的 历史 数据 ,追踪 和 对 比分 析 升 级 服务 项 目 对 客户 消 
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费 模式 的 影响 。 而 第 三 个 案例 分 析 的 主旨 是 分 析 送 货 速度 与 订单 转化 率 的 相关 性 。 


19.1 电 商 流程 管理 分 析 


电 商 或 线 上 商城 每 小 时 能 产生 数 以 万 计 的 数据 ,并 沉淀 在 后 台 的 数据 库 中 。 企 业 的 管 
理 者 可 以 通过 这 些 日 积 月 累 的 增 量 数据 进行 及 时 甚至 实时 的 分 析 , 从 而 辅助 企业 流程 管理 ， 
抑或 是 促进 高 层 策略 的 制定 和 执行 。 以 下 案例 以 某 电 商 企业 为 例 ,基于 该 企业 呼叫 中 心 沉 
淀 的 关于 客户 需求 的 数据 ,将 客户 需求 与 现 有 的 流程 进行 对 比 , 找 出 客户 需求 断 点 ,进而 改 
善 现 有 流程 ,以 期 待 提高 客户 购物 体验 。 


19.1.1 行业 背景 与 业务 问题 


在 阐述 案例 之 前 , 先 介绍 一 些 基本 的 行业 和 业务 概念 : 一 次 来 电 率 (FCR)、 电 商 流 程 ， 
以 及 客户 需求 的 4 级 菜单 。 一 次 来 电 率 (FCR), 即 呼叫 中 心 的 客服 人 员 能 在 一 次 来 电 中 解 
决 客户 关于 某 一 订单 的 需求 问题 ,并且 该 客户 在 接 下 来 一 段 特 定时 间 不 会 再 次 来 电 。 这 个 
指标 是 全 世界 呼叫 中 心 通用 的 重要 指标 之 一 ,每 个 呼叫 中 心 都 给 出 了 具体 的 计算 方法 ,大 同 
小 异 ,可 相互 借鉴 参考 。 对 于 大 众 来 说 , 电 商 流程 的 概念 应 该 不 会 像 在 十 年 前 那样 陌生 , 因 
为 现今 几乎 每 一 个 人 都 能 感受 并 经 历 线 上 购物 的 体验 。 具 体 来 说 , 电 商 流程 包括 售 前 咨询 、 
商品 浏览 下 订单 .订单 管理 /修改 、 商 品 出 库 、 商 品 送 达 、 退 换 货 管理 退 件 / 退 款 管理 ,售后 
咨询 ,促销 活动 等 等 。 最 后 一 个 重要 概念 4 级 菜单 ,是 针对 呼叫 中 心 应 运 而 生 的 概念 。 在 呼 
叫 中 心 ,所 有 的 客户 需求 都 能 体现 在 4 级 菜单 中 。 比 如 一 级 菜单 一 般 是 一 些 客户 需求 大 类 ， 
包括 退换 货 问题 ,订单 确 认 、 物 流 问题 ,发 货 问题 . 送 达 问 题 等 。 

此 案例 以 退换 货 问题 作为 主题 ,对 一 次 性 来 电 率 进行 分 析 。 为 了 深入 地 理解 影响 一 次 
性 来 电 率 的 因素 ,笔者 从 后 台数 据 库 挖掘 出 当年 某 月 二 次 来 电 的 关于 退换 货 问 题 的 数据 , 基 
于 这 些 数 据 , 分 析 客 户 同一 个 订单 二 次 来 电 的 原因 。 通 过 这 样 的 案例 ,我 们 期 待 看 到 如 下 两 
点 作用 : 挖掘 探索 关于 退换 货 问 题 的 二 次 来 电 的 客户 实际 需求 ; 以 及 客户 需求 和 现 阶段 的 
业务 流程 的 差距 ,从 而 对 流程 进行 改善 , 旨 在 提高 客户 购物 体验 。 


19.1.2 分 析 方 法 与 过 程 


电 商 系统 沉淀 数据 的 方式 一 般 分 为 两 类 。 当 客户 在 电 商 网 站 上 有 了 购物 行为 后 ,就 从 
潜在 客户 变 成 价值 客户 。 它 们 的 购物 行为 会 转化 成 交易 信息 ,包括 购买 时 间 、 购 买 商品 类 
型 .购买 数量 ,支付 金额 、 网 页 停留 时 间 等 信息 沉淀 在 后 台数 据 库 中 ,所 以 运用 这 些 客户 购物 
行为 或 交易 数据 可 以 分 析 单 个 客户 或 客户 群 的 价值 ,甚至 可 以 促进 精准 营销 外 。 第 二 种 数 
据 沉淀 方式 是 由 呼叫 中 心 产生 的 。 对 于 一 个 大 型 的 呼叫 中 心 ,每 周 都 有 将 近 几 十 万 的 客户 
来 电 咨询 关于 购物 流程 的 需求 问题 。 在 客户 来 电 过 程 中 ,客服 人 员 会 基于 一 个 订单 ,将 客户 
需求 通过 4 级 菜单 的 形式 .分门别类 地 传人 到 后 台数 据 库 中 。 比 如 客户 来 电 咨询 退换 货 问 
题 ,在 其 详 述 问题 的 过 程 中 ,客服 首先 找到 一 级 菜单 中 的 退换 货 问题 大 类 ,再 寻找 具体 相 匹 
配 的 问题 明细 的 二 级 菜单 ,包括 申请 退换 货 、 退 换 货 政策 咨询 ,检测 报告 问题 等 。 数 据 分 析 
团队 能 通过 4 级 菜单 的 数据 ,挖掘 探索 出 客户 的 实际 需求 与 现 阶段 的 购物 流程 的 差距 ,而 由 
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此 试图 解决 客户 在 购物 体验 中 所 遇 到 的 断 点 和 痛 点 。 数 据 团队 还 能 结合 以 上 提 及 的 两 种 沉 
淀 下 来 的 数据 ,进行 交叉 分 析 。 比 如 某 商品 开展 促销 活动 过 程 中 或 之 后 的 一 段 时 间 中 ,呼叫 
中 心 接收 到 客户 的 需求 反馈 ,该 商品 的 二 次 来 电 率 特别 高 。 基 于 这 样 的 现场 问题 ,数据 团队 
可 通过 数据 库 中 关于 该 商品 的 属性 、 页 面 信息 或 购买 客户 在 网 站 留 下 的 购物 轨迹 等 信息 , 推 
测 出 问题 所 在 。 当 然 也 可 以 与 现场 的 业务 经 理 做 进一步 的 沟通 ,以 确认 问题 的 所 在 。 

1. 数据 处 理 

首先 结合 业务 问题 ,将 问题 转化 为 数据 的 语言 ,并 将 所 要 涉及 的 变量 理 清 出 来 。 比 如 本 
案例 中 ,涉及 的 变量 大 致 包括 客户 基于 同一 订单 的 不 同 来 电 时 间 、 相 关 订单 信息 、 相 关 商 品 
属性 .4 级 菜单 信息 、 客 户 属性 等 。 接 着 回 到 后 台数 据 库 , 找 到 在 线 数据 字典 ,找寻 相关 表 和 
字段 ,并 挖掘 出 有 价值 的 原始 数据 。 针 对 这 些 数据 ,进行 初步 的 描述 性 统计 ,审查 数据 的 质 
量 问 题 ,如 果 数 据 质量 差 , 先 做 数据 清洗 。 比 如 某 个 变量 有 大 量 缺 失 值 一般 处 理 缺失 值 的 
办 法 有 如 下 三 种 : 直接 删除 ; 取 非 空 记录 的 平均 值 代 蔡 缺失 值 ; 先 将 整个 样本 聚 类 ,从 而 让 
缺失 值 所 对 应 的 记录 归 和 到 某 一 类 ,然后 通过 同一 类 的 其 他 记录 的 平均 值 代替 缺失 值 。 这 
三 种 方法 中 ,第 一 种 方法 可 能 会 引起 样本 量变 小 或 信息 丢失 的 情况 ,而 第 三 种 方法 相对 复 
杂 , 但 比较 合理 。 对 缺失 值 处 理 的 详 述 ,请 参见 第 4 章 。 除 了 缺失 值 的 处 理 , 在 建 模 的 一 些 
案例 中 ,还 可 能 会 涉及 变量 的 离散 化 。 在 做 完 相 应 的 数据 清洗 和 规整 后 ,会 基于 规整 后 的 原 
始 数据 ,根据 业务 场景 进一步 地 进行 转换 。 比 如 本 案例 中 重点 考察 的 是 多 次 来 电 的 规律 , 那 
么 需要 基于 同一 订单 ,根据 来 电 时 间 ,将 每 次 来 电 和 剥离, 并 打上 标签 。 总 之 ,本 案例 更 多 是 用 
的 描述 性 分 析 的 方法 ,并 未 涉及 建 模 过 程 ,所 以 主要 涉及 的 是 将 业务 问题 转化 成 数据 语言 
挖掘 数据 ,处 理 数据 缺失 值 的 情况 ,以 及 根据 业务 问题 进一步 对 数据 标签 化 。 

2. 数据 分 析 过 程 :主要 影响 因素 

通过 分 析 过 去 一 年 的 历史 数据 ,发 现 影响 一 次 性 来 电 率 的 因素 包括 表 19-1 所 述 的 20 
种 问题 。 表 19-1 展示 了 一 次 性 来 电 率 与 主要 影响 因素 或 客户 需求 问题 的 相关 性 。 具 体 来 
看 ,一 次 性 来 电 率 主要 与 送 达 问题 ,退换 货 问题 ,以 及 订单 确认 问题 最 为 相关 。 在 接 下 来 的 
文章 中 ,将 以 退换 货 问题 为 例 ,分 析 客 户 真 实 的 需求 。 


表 19-1 客户 需求 类 型 与 一 次 性 来 电 率 的 相关 性 






































客户 需求 问题 相关 系数 统计 显著 性 
账户 维护 0.020 0. 885 
投诉 0.216 0.116 
假 货 /次 品 0. 059 0. 672 
礼品 卡 账户 问题 0. 163 0. 240 
退换 货 问题 0.560* 0. 050 
第 三 方 卖家 0. 235 0.088 
订单 确认 0.60277 0. 000 
订单 修改 0. 259 0.059 
付款 问题 0.181 0. 190 
售 前 咨询 0.391™ 0. 003 
促销 0. 102 0. 461 
退 款 一 0.025 0. 856 
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客户 需求 问题 统计 显著 性 
来 电 中 断 或 转 接 0.075 0. 590 
WMS: 库 房 拖延 0.418" 0. 002 
WMS: 邮 递 员 拖延 0.54277 0. 000 
WMS: 物 流 拖延 0. 281* 0. 040 
WMS: 送 达 时 间 0.80077 0. 000 











* : p«0.05; ** : p<0.01; xxx : p<0. 001 


3. 数据 分 析 过 程 : 二 次 来 电 规律 

从 后 台数 据 库 数 据 看 ,客户 总 计 两 次 来 电 的 订单 占 所 有 订单 总 数 的 53. 51%% ,所 以 本 案 
例 将 重点 集中 在 总 计 有 两 次 来 电 的 订单 上 。 并 且 我 们 也 发 现 , 在 最 重要 的 4 个 客户 需求 中 
(促销 .退换 货 问 题 ,第 三 方 卖家 ,以 及 退 款 问题 ) ,退换 货 问 题 占 第 一 次 来 电 总 体 的 64. 5026 , 因 
此 再 将 分 析 聚 焦 在 退换 货 问题 上 。 图 19-1 展示 了 关于 退换 货 问题 的 客户 来 电 规律 ,其 中 主 
要 梳理 了 第 一 次 来 电 是 退换 货 问 题 ,而 第 二 次 来 电 是 其 他 问题 的 相关 订单 的 客户 需求 , 占 该 
类 二 次 来 电 问题 的 59. 89%。 通 过 对 客户 来 电 需 求 的 分 析 , 可 以 总 结 出 现 阶段 关于 退换 货 
流程 的 断 点 。 本 案例 并 没有 针对 两 次 来 电 均 是 退换 货 问题 的 情况 ,导致 这 样 情况 的 主因 是 
客服 人 员 对 退换 货 问题 不 够 熟悉 ,或 是 相关 政策 过 于 复杂 ,难以 在 一 次 来 电 中 解释 清楚 。 这 
样 的 问题 并 不 能 反映 流程 的 问题 ,因此 本 案例 并 没 涉及 。 

CD 从 图 19-1 来 看 ,32. 82% 关 于 退换 货 问题 的 二 次 来 电 是 关于 退 款 问题 。 在 这 些 二 
次 来 电 中 ,85. 32% 的 二 次 来 电 要 求 将 退 款 从 站 内 礼品 卡 账户 转 入 个 人 银行 账户 。 在 此 , 插 
人 相关 背景 介绍 , 某 些 电 商 网 站 是 不 能 将 退 款 直接 转 和 人 客户 银行 账户 或 者 支付 宝 账户 中 ,而 
是 首先 转 和 站 内 账户 中 。 但 根据 中 国 消费 者 的 习惯 ,客户 大 多 数 都 会 要 求 将 退 款 转 人 个 人 
银行 卡 账户 中 。 同 时 ,我 们 也 发 现 14.77% 的 来 电 是 咨询 退 款 流程 ,比如 信用 卡 、 电 汇 , 以 及 
支付 宝 退 款 流程 。 以 上 提 及 两 种 二 次 来 电 的 情况 均 发 生 在 一 次 来 电 之 后 四 五 天 左右 。 透 过 
数据 ,再 反思 当下 的 退 件 、 退 款 流程 ,我 们 会 发 现 从 数据 中 得 出 的 结果 是 可 控 的 ,甚至 是 可 以 
预 估 的 。 内 部 业务 流程 规定 邮递 员 在 客户 提出 退货 的 4 天 之 内 必须 上 门 取 件 ,再 将 取 件 归 
还 到 仓库 中 。 结 合 数据 ,我 们 会 发 现 一 个 规律 : 客户 偏好 在 邮递 员 取 件 后 ( 即 4 天 后 ) 二 次 
来 电 , 咨 询 下 一 阶段 的 退 款 流程 。 如 果 从 业务 流程 改进 的 角度 思考 ,在 邮递 员 取 件 入 库 后 
CHI 4 天 左右 ) ,系统 应 该 给 相应 的 客户 一 些 关 于 下 阶段 退 款 流程 的 提示 。 比 如 在 个 人 账户 
中 ,阐明 退 款 流程 ,或 者 以 短信 的 方式 告知 客户 相应 下 阶段 的 流程 ,从 而 引导 客户 自助 完成 
下 阶段 的 退 款 流程 ,避免 二 次 来 电 。 

(2) 13.45% 的 二 次 来 电 属于 转 接 电话 或 者 电话 中 断 的 情况 。 从 常识 角度 思考 ,如 此 大 
量 的 二 次 来 电 被 归于 转 接 电话 或 者 电话 中 断 的 情况 是 蹊跷 的 。 从 真实 的 数据 上 看 ,我 们 发 
现 的 实际 情况 是 , 当 客 服 接 到 快递 员 电 话 来 询问 相关 商品 的 退换 货 政策 的 时 候 ,客户 人 员 会 
将 这 些 电 话 归于 转 接 电话 或 电话 中 断 。 在 这 部 分 二 次 来 电 中 ,78. 68% 的 二 次 来 电 是 快递 员 
来 电 询问 退换 货 政 策 , 而 只 有 21. 32% 的 二 次 来 电 是 真实 的 转 接 电话 或 者 系统 问题 引起 的 
电话 中 断 。 从 数据 角度 思考 ,如 果 我 们 能 解决 此 处 提 及 的 快递 员 基于 退换 货 问题 订单 的 二 
次 来 电 , 关 于 退换 货 问 题 的 一 次 性 来 电 率 将 提高 3. 56%。 从 业务 角度 思考 ,我 们 应 该 事先 
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图 19-1 关于 退换 货 问题 的 两 次 来 电流 程 


实施 一 些 预 防 措施 ,有 可 能 就 能 有 效 地 避免 二 次 来 电 。 

(3) 为 了 更 好 地 解决 快递 员 问 题 ,我 们 针对 相关 案例 进行 了 抽样 分 析 。 我 们 发 现 ,快递 
员 二 次 来 电 主要 咨询 以 下 4 个 问题 : 关于 手机 退换 货 的 官方 检测 报告 .发票 问题 ,包装 残 
缺 . 错 货 的 名 称 与 退 件 单 上 的 商品 名 称 不 符 。 我 们 建议 的 措施 是 ,针对 快递 员 事先 进行 相关 
政策 的 强化 培训 或 者 在 快递 员 拿 到 的 退货 单 的 备注 栏 或 后 台 查 询 界面 的 提示 栏 中 加 入 相关 
商品 的 退换 货 政策 ,通过 这 样 的 预防 措施 减少 相关 的 二 次 来 电 。 

(4) 13. 62% 的 二 次 来 电 是 关于 发 货 时 间或 者 送 达 时 间 问 题 。 此 类 的 二 次 来 电 的 平均 
时 间 间 隔 是 两 天 。 我 们 发 现 ,85. 38% 的 此 类 二 次 来 电 是 来 咨询 送 达 时 间 ,14. 62% 是 来 咨询 
从 仓库 发 货 的 时 间 。 当 时 该 电 商 公司 的 一 个 主要 问题 是 在 客户 的 个 人 账户 中 查询 不 到 物流 
的 详细 信息 ,这样 的 问题 自然 会 导致 客户 的 多 次 来 电 咨询 送 达 时 间 。 并 且 我 们 发 现 ,客户 对 
等 待 时 间 的 平均 容忍 程度 是 两 天 ,也 就 是 说 ,在 商品 审批 完成 发 货 两 天 之 内 ,客户 希望 得 到 
送 达 时 间 的 相关 信息 。 在 之 后 一 年 中 ,该 电 商 已 针对 此 问题 做 出 相应 改进 ,实际 指标 也 相应 
改善 。 

上 文 针 对 第 一 次 来 电 是 退换 货 来 电 问题 而 第 二 次 来 电 是 其 他 问题 的 订单 进行 了 分 析 ， 
接 下 来 将 探索 两 次 来 电 都 是 退换 货 问题 的 情况 。 我 们 发 现 ,13. 84% 的 二 次 来 电 都 是 关于 测 
试 报告 问题 ,并 且 平 均 间隔 是 一 天 。 测 试 报告 是 某 些 电 子 产品 在 退换 货 过 程 中 要 求 必须 提 
供 的 。 从 抽查 具体 样本 中 我 们 发 现 ,这 类 二 次 来 电 是 客户 不 清楚 测试 报告 获取 的 机 构 地 址 
以 及 测试 报告 如 何 发 给 理赔 公司 。 即 使 客户 在 第 一 次 来 电 中 已 告知 客户 获取 和 发 送 测试 报 
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告 的 流程 和 详细 信息 ,客户 仍然 会 再 次 来 电 确认 相关 问题 。 这 说 明 相 关 政 策 最 好 是 以 书面 
的 形式 发 送 给 客户 ,而 非 口头 告知 的 方式 。 所 以 建议 公司 以 个 人 账户 .查询 界面 或 电子 邮件 
的 形式 提供 给 客户 相关 政策 的 流程 图 ,其 中 需 提供 以 下 详细 信息 : 测试 报告 获取 的 流程 ( 检 
测 机 构 地 址 和 联系 方式 ,检测 所 需 材料 等 ) ,检测 报告 获取 时 间 , 以 及 测试 报告 收 到 后 发 送 的 
邮箱 地 址 等 。 

除了 检测 报告 问题 ,25. 99% 的 两 次 相同 来 电 都 是 关于 退换 货 的 政策 问题 ,平均 间隔 时 
间 是 两 天 。 同 理 , 在 比较 短 时 间 的 二 次 来 电 , 一 般 预 示 客 服 不 能 通过 口头 讲述 的 方式 将 问题 
阐明 清楚 。 所 以 我 们 仍然 建议 针对 退换 货 政策 这 一 大 类 问题 ,进行 业务 梳理 ,形成 清晰 的 流 
程 图 并 提供 关键 信息 ,提供 给 客服 人 员 或 者 客户 。 

此 案例 阐述 了 一 个 以 电 商 客户 体验 为 中 心 的 分 析 例 子 , 更 多 地 从 业务 的 角度 挖掘 分 析 
客户 的 实际 需求 。 此 案例 并 没有 运用 复杂 的 建 模 过 程 , 而 是 用 最 直接 .最 有 效 的 方式 去 关联 
数据 ,深入 理解 数据 ,并 与 现 有 的 业务 相 结合 互相 验证 和 推动 ,从 而 使 得 数据 分 析 推 动 业务 ， 
业务 指导 数据 分 析 ,相互 影响 和 促进 ,相得益彰 。 


19.2 用 户 消 费 行 为 分 析 


数据 分 析 在 互联 网 行业 的 应 用 ,除了 上 文 详 述 的 电 商 流程 管理 案例 之 外 ,还 有 一 些 案例 
是 基于 用 户 消费 行为 的 探索 。 以 下 案例 将 阐述 关于 快递 升级 服务 对 客户 消费 行为 的 影响 
分 析 。 

电 商 客户 体验 部 的 决策 者 们 经 常会 对 一 些 刚 实施 的 升级 服务 的 效果 产生 兴趣 ,于 是 数 
据 团队 就 会 在 第 一 时 间接 到 这 样 的 业务 问题 ,从 而 进行 专门 的 案例 分 析 。 例 如 ,需要 针对 某 
几 个 月 实施 的 快递 升级 服务 效果 做 出 评估 。 也 就 是 说 ,管理 者 想 了 解 提 供给 客户 的 升级 服 
务 是 否 在 接 下 来 的 一 段 时 间 内 提升 客户 的 消费 水 平 。 按 照常 理 , 我 们 的 期 望 是 当 商 家 为 客 
户 提供 更 优质 的 服务 后 ,客户 自然 会 “感恩 戴 德 ”, 在 接 下 来 一 段 时 间 中 自然 会 加 大 消费 ,以 
回报 商家 的 “美意 ”。 基 于 以 上 业务 问题 和 假设 ,数据 团队 展开 分 析 工 作 。 


19.2.1 业务 问题 


数据 团队 的 第 一 要 务 应 该 是 与 业务 部 门 对 接 , 界 定 清 楚 业 务 概念 ,并 将 这 些 业 务 概念 转 
化 成 数据 语言 ,进而 通过 这 些 数据 语言 在 后 台数 据 库 中 抓 取 相 应 的 数据 。 基 于 上 文 提 及 的 
业务 场景 ,首先 需要 清晰 地 界定 分 析 人 群 .从 业务 问题 来 看 ,分 析 人 群 应 该 是 预定 某 种 商品 
的 客户 ; 从 业务 和 分 析 简 化 的 角度 ,数据 团队 还 去 掉 了 两 类 客户 群体 : 国外 的 预订 客户 ,以 
及 某 些 客户 的 订单 混杂 着 不 同 的 商品 或 是 订单 需要 寄 往 多 个 地 址 。 进 行 这 样 的 征调 主要 出 
于 简化 分 析 的 目的 ,同时 让 我 们 的 分 析 目 标 更 清晰 ,当然 这 样 的 微调 一 定 是 建立 于 有 足够 的 
分 析 样 本 量 的 前 提 之 上 。 最 终 分 析 样 本 量 确定 为 617 966 个 客户 ,其 中 89% 的 客户 获得 快 
递 升级 服务 ,而 其 余 11% 的 客户 并 未 获得 快递 升级 服务 。 第 二 个 需要 界定 清楚 的 定义 是 两 
段 时 间 : 预订 期 和 观察 期 。 某 种 商品 的 预订 期 一 般 会 是 比较 长 的 一 段 时 间 , 有 可 能 是 半年 ; 
而 观察 期 一 般 起 始 于 商品 发 货 后 的 几 个 月 。 而 对 于 这 两 段 时 间 的 界定 ,主要 还 是 与 业务 部 
门 进行 最 终 确认 。 界 定 完 以 上 两 个 定义 后 ,数据 团队 会 确定 分 析 思 路 。 两 种 分 析 思 路 ,第 一 
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种 单纯 地 从 观察 期 的 角度 去 分 析 , 对 比分 析 获 得 快递 升级 服务 的 客户 与 未 获得 升级 服务 的 
客户 在 观察 期 的 消费 水 平 ; 第 二 种 考虑 预订 期 的 因素 , 即 结合 预订 期 的 原 有 的 消费 情况 ,对 
比分 析 获 得 快递 升级 服务 的 客户 与 未 获得 升级 服务 的 客户 在 观察 期 的 消费 水 平 。 第 二 种 分 
析 旨 在 去 除 客户 的 固有 消费 模式 的 影响 因素 , 即 确保 预订 期 的 消费 模式 不 会 对 观察 期 两 类 
客户 群体 的 消费 模式 形成 干扰 。 


19.2.2 分 析 方 法 与 过 程 


分 析 起 始 于 深入 了 解 原始 数据 , 即 基 于 原始 数据 进行 描述 性 分 析 。 仅 从 观察 期 的 数据 
看 , 表 19-2 展示 了 对 比 的 初步 结果 。 总 的 来 说 ,54% 的 预订 商品 客户 在 观察 期 进行 了 消费 。 
具体 来 说 ,没有 获得 升级 服务 的 客户 中 有 60% 在 观察 期 进行 了 消费 ,而 获得 升级 服务 的 客 
户 中 只 有 53% 在 观察 期 进行 了 消费 。 这 个 简单 数据 的 对 比 ,在 一 定 程度 上 说 明 在 不 考虑 预 
订 期 的 固有 消费 情况 下 ,获得 升级 服务 的 客户 在 观察 期 比 未 获得 服务 的 客户 消费 得 还 少 。 


表 19-2 获得 升级 服务 客户 与 未 获得 升级 服务 客户 在 观察 期 的 消费 情况 对 比 








所 有 观察 客户 617 966 100% 54% 
升级 服务 550 165 89% 
未 升级 服务 67 801 11% | 60% 





在 简单 的 描述 性 分 析 之 后 ,通过 建 模 的 方式 ,在 考虑 预订 期 期 间 两 个 客户 群体 消费 模式 
的 前 提 下 ,对 比分 析 两 个 客户 群体 在 观察 期 的 消费 模式 。 具 体 来 说 ,通过 OLS 回归 分 析 , 建 
立 如 下 两 个 模型 。 在 使 用 OLS 回归 建 模 之 前 ,我 们 应 该 对 该 模型 的 假设 进行 检验 ,比如 因 
变量 是 否 呈 现 正 态 分 布 , 自 变 量 是 否 相 互 无 共 线 性 等 。 在 这 些 假设 验证 通过 后 ,我 们 进行 建 
模 过 程 。 第 一 个 模型 是 在 没有 考虑 预订 期 的 两 个 客户 群体 消费 模式 的 前 提 下 , 仅 考 察 观察 
期 两 个 客户 群体 的 购物 差异 。 而 第 二 个 模型 在 考虑 预订 期 的 两 个 客户 群体 消费 模式 的 前 提 
下 ,考察 观察 期 两 个 客户 群体 的 购物 差异 .并 考察 了 预订 期 的 购物 模式 对 观察 期 的 购物 模式 
的 影响 。 

模型 1: y = 二 a 十 bz 

y 表示 观察 期 的 购买 量 ; 

a= 0 表示 获得 快递 升级 服务 ; 1 表示 未 获得 快递 升级 服务 ; 

a 表示 如 果 zi=0( 获 得 升级 服务 ) 的 情况 下 观察 期 的 购买 量 ; 

1 表示 获得 升级 服务 和 未 获得 升级 服务 的 客户 在 观察 期 的 购买 量 的 差异 。 

模型 2:y =a + bin d bis 

y 表示 观察 期 的 购买 量 ; 

a= 0 表示 获得 快递 升级 服务 ; 1 表示 未 获得 快递 升级 服务 ; 

Zs 表示 预订 期 的 购买 量 ; 

a 表示 如 果 zx; 二 0( 获 得 升级 服务 ) 以 及 x; 二 0( 预 订 期 没有 任何 消费 ) 的 情况 下 ,客户 在 
观察 期 的 购买 量 ; 

呈 表 示 在 考虑 预订 期 的 消费 水 平 的 情况 下 ,考察 获得 升级 服务 和 未 获得 升级 服务 的 客 


s 
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户 在 观察 期 的 购买 量 的 差异 ; 

bs 表示 在 考虑 升级 或 未 升级 的 两 种 情况 下 ,考察 客户 在 预订 期 的 购买 量 每 单元 的 增加 
对 客户 在 观察 期 的 购买 量变 化 的 影响 。 

模型 结果 表明 , 单 从 第 一 个 模型 来 看 ,获得 快递 升级 服务 的 客户 比 未 获得 快递 升级 服务 
的 客户 在 观察 期 的 消费 少 。 这 一 结论 与 建 模 之 前 做 的 描述 性 分 析 的 结论 是 一 致 的 。 接 着 再 
用 第 二 个 模型 深入 地 去 找寻 导致 这 种 差异 的 因素 ,会 发 现 两 个 客户 群体 在 观察 期 的 消费 模 
式 与 之 前 他 们 在 预订 期 的 固有 模式 相关 。 也 就 是 说 ,获得 快递 升级 服务 的 客户 在 观察 期 比 
未 获得 快递 升级 服务 的 客户 消费 得 少 ,其 中 一 个 影响 因素 是 这 些 客户 原本 在 预订 期 就 消费 
得 少 。 从 另 一 个 角度 说 ,在 我 们 的 样本 中 ,那些 未 获得 快递 升级 服务 的 客户 原本 就 是 “好 ” 客 
户 。 表 19-3 的 数据 显示 ,在 观察 期 两 个 客户 群体 的 购买 模式 存在 差异 ,并 且 这 种 差异 的 
80% 是 由 预订 期 两 个 客户 群体 的 购物 模式 的 差异 导致 的 。 


表 19-3 观察 期 和 预订 期 两 个 客户 群体 的 购物 模式 差异 对 比 

















cmm 两 个 群体 观察 期 先前 消费 习惯 对 两 个 群体 去 除 先前 消费 
DONERUN nap 购买 力 差异 观察 期 购买 力 差异 的 影响 习惯 后 的 差异 比 
客户 数 (样本 量 ) 617 966 | 617 966 
订单 角度 0.69 | 0.11 84% 
单位 订单 角度 w| 0.24 86% 
产品 线 角度 aa | 0.11 46% 
电子 类 商品 1.55 0.19 88% 








以 上 阐述 了 一 个 用 户 消费 行为 相关 的 案例 ,这 个 案例 从 对 原始 数据 的 描述 性 分 析 开 始 ， 
从 这 些 描述 性 分 析 的 初始 结果 ,我 们 能 发 掘 最 直 白 和 有 效 的 信息 ,但 这 些 信息 还 设 有 说 服 
力 , 也 不 够 详尽 。 所 以 在 第 二 阶段 通过 回归 分 析 建 模 的 过 程 ,展示 对 数据 深层 次 的 理解 一 
验证 了 在 描述 性 分 析 过 程 中 得 到 的 结论 ,并 进一步 挖掘 出 影响 客户 消费 模式 的 因素 。 


19.3 送 货 速度 相关 性 分 析 


在 电 商 运营 过 程 中 ,针对 网 站 上 实时 沉淀 下 来 的 数据 进行 时 效 性 的 分 析 , 已 经 成 为 电 商 
运营 人 员 日 常 的 必 备 功课 。 分 析 人 员 基 本 的 工作 职责 ,包括 如 何 从 单一 指标 分 析 转 向 多 指 
标 综合 分 析 、 从 静态 分 析 转 向 动态 分 析 、 从 描述 性 分 析 转 向 深层 建 模 分 析 , 从 而 实时 ,动态 地 
监控 日 常 运营 ,把 用 户 活 动 转化 为 电 商 的 商业 价值 。 

本 案例 分 析 的 主旨 是 分 析 送 货 速度 与 订单 转化 率 的 相关 性 。 本 案例 中 ,我 们 将 针对 在 
历史 数据 库 中 抽取 过 去 三 个 月 的 相关 数据 进行 分 析 。 


19.3.1 业务 问题 


本 案例 涉及 三 个 基本 概念 和 指标 。 订 单 转化 率 是 指 基于 某 种 商品 的 浏览 量 转化 成 最 终 
付款 订单 的 比例 。 与 送 货 速度 相关 的 指标 包括 一 天 内 送 达 (SDD) 以 及 次 日 送 达 (NDD)。 
而 本 案例 旨 在 分 析 电 商 公司 对 送 货 速 度 的 承诺 与 订单 转化 率 和 收入 情况 的 相关 性 ; 也 就 是 
说 , 当 电 商 公司 承诺 更 高 效 的 送 货 方式 的 时 候 , 客 户 会 不 会 更 愿意 下 单 付款 。 
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本 案例 从 4 个 方面 进行 剖析 ,其 中 包括 送 货 速度 对 订单 转化 率 的 影响 、 送 货 速度 对 收入 
增长 的 影响 、 同 日 送 达 (SDD) 服 务 的 敏感 性 分 析 , 以 及 次 日 送 达 (NDD) 服 务 的 敏感 性 分 析 。 


19.3.2 分 析 方 法 与 过 程 


1. 送 货 速 度 对 订单 转化 率 的 影响 

表 19-4 展示 了 从 提供 不 同 送 货 速 度 的 城市 以 及 送 货 速 度 两 个 维度 来 分 析 订 单 转化 率 。 
从 过 去 三 个 月 的 中 国 地 区 整体 的 数据 看 , 相 比 承诺 两 天 或 以 上 的 送 货 速 度 而 言 ,承诺 同日 到 
达 或 者 次 日 到 达 的 转化 率 是 比较 高 的 ,分 别 是 9.694 9. 4965. 而 承诺 两 天 或 以 上 送 货 时 间 
的 商品 订单 转化 率 在 7.0268. 4% 之 间 波 动 。 这 些 数据 表明 客户 更 愿意 选择 能 在 次 日 之 
内 到 达 的 商品 。 值 得 一 提 的 是 在 没有 提供 次 日 到 达 (NDD) 的 城市 ,其 承诺 两 天 或 以 上 的 商 
品 订单 转化 率 比 提 供 同 日 (SDD) 或 次 日 到 达 (NDD) 的 城市 的 相应 的 转化 率 要 高 。 导 致 这 
种 现象 的 可 能 原因 是 在 这 些 没 有 提供 NDD 服务 的 城市 , 相 比 其 他 竞争 对 手 , 这 家 电 商 公司 
能 提供 更 快 和 优质 的 送 货 服 务 , 所 以 在 这 些 城市 的 客户 更 愿意 购买 这 家 公司 的 商品 。 除 此 
之 外 ,在 没有 提供 NDD 服务 的 城市 , 送 货 时 间 大 于 7 天 时 ,其 订单 转化 率 相 对 比较 高 
(8. 1%), 这 大 概 是 因为 预订 商品 导致 这 样 的 数据 结果 。 由 于 大 于 7 天 送 货 时 间 商 品 的 比较 
高 的 转化 率 从 一 定 程度 上 提升 了 该 项 (二 NDD 城市 ) 的 整体 转化 率 。 


表 19-4 送 达 速度 与 订单 转化 率 整体 分 析 











收入 增加 额 ( 人 民 币 : AD 收入 增加 百分比 


ALL SDD AII-NDD AII2DD AII3DD ALL SDD AIINDD AII2DD AN 三 3DD 


2. 送 货 速度 对 收入 增长 的 影响 

基于 转化 率 , 收 入 增长 用 于 衡量 客户 由 于 SDD 和 NDD 服务 所 带 来 的 价值 。 从 表 19-5 
看 ,如 果 全 面 覆盖 当日 送 达 和 次 日 送 达 服务 ,总 体 收入 将 分 别提 高 12. 9%% 及 11. 4%。 如 果 
更 换 成 两 天 送 达 和 三 天 送 达 服务 ,收入 将 分 别 下 降 到 2. 4% 及 0.01%, 这 表明 同日 和 次 日 送 
达 服 务 会 潜在 地 增加 收入 的 增长 。 


表 19-5 10 周 内 送 达 服务 对 收入 增长 影响 






总 体 0.01% 





SDD NDD 





SDD 城 市 | 9.6026 | 9.40% | 7.50% | 6.80% | 6.30% | 6.10% | 6.10% | 6.90% | 9.70% | 8. 40% 
NDD 城市 9.20% | 8.70% | 8.20% | 7.90% | 7.30% | 6.60% | 6.80% | 8.20% | 8.309 
二 NDD 城市 9.20% | 8.90% | 8.9096 | 8.4026 | 7. 7026 | 7. 1026 | 8. 1096 | 8.50% 
中 国 整体 9.6096 9.4026 | 8.1026 | 7.6096 | 7.70% | 7.60% | 7.20% | 7.00% | 8.3096 | 8. 4096 












































3. 同日 送 达 服 务 的 敏感 性 分 析 

目前 ,该 公司 的 同日 送 达 (SDD) 服 务 已 覆盖 了 全 国 26 个 城市 ,其 中 包括 一 线 城市 北京 、 
上 海 、 广 州 及 深圳 ,这 4 个 一 线 城市 基本 占据 全 国 同日 送 达 服务 总 量 的 71%。 其 中 一 个 原 
因 是 这 4 个 一 线 城市 占据 全 国 需求 的 32% ,其 次 是 大 型 仓库 主要 分 布 在 这 4 个 一 线 城市 
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中 。 如 果 公司 承诺 100% 全 面 获 盖 同日 送 达 服务 ,那么 所 有 收入 将 增长 12. 926; 如 表 19-6 
所 示 , 具 备 同日 送 达 服务 的 城市 的 收入 额 将 占 收 入 总 额 的 60. 3%。 这 些 数据 表明 ,同日 送 


达 服 务 的 全 面 升级 覆盖 将 带 来 巨大 的 收入 提升 空间 。 
表 19-6. 10 周 内 在 各 大 城市 同日 送 达 服务 (SDD) 对 收入 增长 影响 
































收入 增长 额 
SDD 城市 576 409 72 273.1 12.54% 60.33% 
一 线 城市 336 313 42 595. 3 12.67% 35.56% 
北京 168 091 27 011.3 16.07% 22.55% 
深圳 34 506.2 5193. 4 15.05% 4.34% 
广州 52 707.9 6213.1 11. 7996 5.19% 
上 海 81 007 4177. 4 5.16% 3.49% 
其 他 240 096 29 677.8 12. 36% 24.77% 
NDD 城市 211995 31003.7 14.62% 25.8896 
>NDD 城市 140 190 16 515.7 11.78% 13.79% 
总 体 928 594 119 793 12.90% 100.00% 

















4. 次 日 送 达 服务 的 敏感 性 分 析 

除了 26 个 具备 同日 送 达 (SDD) 服 务 的 城市 以 外 ,还 有 78 个 城市 可 以 提供 次 日 送 达 
(NDD) 服 务 ,并 且 北 上 广 深 四 大 一 线 城市 次 日 送 达 服务 商品 占 总 量 的 47%。 如 果 公 司 向 所 
有 客户 提供 次 日 送 达 服务 ,总 收入 将 提升 12. 4%; 如 表 19-7 所 示 , 具 备 次 日 送 达 服务 的 城 
市 的 收入 额 将 占 收 入 总 额 的 67.6%。 这 些 数据 表明 次 日 送 达 服务 的 全 面 升级 覆盖 同样 将 
给 一 线 城市 带 来 巨大 的 收入 提升 空间 。 


表 19-7 10 周 内 在 各 大 城市 次 日 送 达 服务 (NDD) 对 收入 增长 影响 












































城市 类 型 总 体 收入 收入 增长 额 收入 增长 % 贡 献 Ox 
SDD 城市 576 409 71 277.8 12.37% 67.5796 
一 线 城市 336 313 34 136.1 10. 1596 32. 36% 
北京 168 091 17 525.9 10. 43% 16.61% 
深圳 34 506.2 4901.2 14. 2096 4.65% 
广州 52 707.9 6161.9 11.6996 5.8496 
上 海 81 007 5547. 1 6. 8596 5.2696 
其 他 240 096 37 141.8 15.4796 35.21% 
NDD 城市 211 995 20 805.5 9. 8196 19. 7296 
>NDD 城市 140 190 13 410.2 9.5796 12. 7196 
总 体 928 593 105 494 11.36?6 100. 00% 

5. 小 结 


基于 以 上 的 分 析 ,我 们 发 现 , 中 国 消费 者 很 重视 同日 和 次 日 送 达 服 务 , 所 以 在 中 国 VIP 
服务 应 该 着 重 于 区 分 同日 和 次 日 送 货 服务 ,并 加 大 对 其 的 投资 。 其 次 ,同日 和 次 日 送 达 服务 
应 该 扩大 覆盖 城市 (特别 是 一 线 城市 ) ,此 举 将 对 整体 收入 的 增长 起 到 积极 作用 。 
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19.4 总 结 


以 上 三 个 电 商 行业 的 案例 ,通过 不 同 的 业务 问题 和 分 析 思 路 ,展示 了 类 似 行业 分 析 特 
征 。 电 商行 业 的 分 析 特 征 有 三 : 首先 , 电 商 较 其 他 行业 ,更 重视 数据 分 析 的 时 效 性 ,因此 多 
采用 时 效 性 强 的 数据 挖掘 方法 。 一 般 不 会 用 到 基于 大 量 历史 数据 的 数学 建 模 ,更 多 地 用 层 
层 推理 的 分 析 方 式 ,直接 从 数据 库 中 去 抓 取 数 据 。 其 次 ,在 分 析 电 商 数 据 时 ,特别 强调 对 业 
务 的 深入 理解 , 即 与 业务 部 门 的 对 接 与 沟通 特别 重要 。 理 想 的 分 析 模 式 一 定 是 建立 在 对 业 
务 问 题 和 业务 流程 的 深入 理解 的 基础 上 ,将 与 业务 紧密 结合 的 分 析 思 路 转化 为 较为 准确 的 
数据 ,并 将 分 析 思 路 的 推理 过 程 展示 出 来 ,从 而 作为 决策 层 制定 改进 行动 的 依据 。 最 后 ,由 
于 电 商 行业 的 分 析 需 要 与 业务 的 紧密 结合 ,因此 更 加 需要 分 析 人 员 深 入 到 行业 中 亲身 体验 
和 实践 。 
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1. 电 商 行业 的 数据 分 析 有 哪些 特征 ? 与 其 他 行业 的 分 析 有 哪些 不 同 之 处 ? 

2. 简 述 业务 分 析 与 数学 统计 建 模 分 析 的 异同 。 

3. 在 电 商 呼叫 中 心 的 用 户 体验 流程 管理 中 ,会 用 到 的 KPI( 关 键 绩效 评估 指标 )FCR 的 
含义 是 什么 ? 
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数据 分 析 除 了 在 互联 网 中 的 广泛 应 用 ,在 金融 和 经 济 中 的 应 用 更 加 广泛 。 互 联网 领域 
的 分 析 更 偏重 于 时 效 性 。 在 电 商 行业 ,数据 分 析 人 员 需 要 实时 地 监测 数据 ,一 般 这 里 提 及 的 
实时 会 以 每 日 或 者 每 小 时 计算 。 比 如 线 上 商城 在 某 一 时 段 开 展 促 销 活动 后 ,分 析 人 员 就 会 
每 小 时 地 观测 交易 数据 ,以 防 出 现 一 些 诸如 页 面 显 示 错 误 或 者 错 价 之 类 的 问题 。 然 而 ,数据 
分 析 在 金融 和 经 济 中 的 应 用 ,更 多 地 会 从 数学 统计 建 模 的 角度 去 看 数据 。 比 如 在 银行 中 ,分 
析 人 员 会 用 Logistic 回归 模型 去 预测 客户 变 坏 的 概率 。 因 此 ,金融 商业 和 经 济 中 的 数据 分 
析 更 偏重 的 是 根据 一 段 比较 长 时 间 的 历史 数据 进行 分 析 决 策 或 预测 。 

本 章 将 分 享 关于 金融 和 经 济 的 三 个 分 析 案 例 , 以 给 读者 ; 试图 通过 这 样 的 展示 ,在 一 定 
程度 上 为 将 来 深入 的 探讨 ,交流 分 析 相 关 的 案例 做 铺垫 。 这 三 个 分 析 案 例 包括 企业 对 科技 
推动 的 影响 力 分 析 、 贷 款 风险 评估 分 析 , 以 及 中 小 能 源 型 企业 信用 评价 分 析 。 第 一 个 案例 主 
要 分 析 了 各 种 类 型 的 企业 组 织 对 科技 创新 推动 经 济 的 影响 程度 。 具 体 地 说 ,根据 基于 499 
家 公司 /企业 的 调查 问卷 数据 中 显示 ,商业 公司 被 认为 是 最 重要 的 学 习 共享 科技 创新 的 主导 
者 ,大 学 是 推动 科技 创新 人 才 的 聚集 地 ,行业 协会 是 最 重要 的 促 科技 合作 的 推动 者 。 第 二 个 案 
例 主要 进行 信贷 风险 的 定量 分 析 一 一 通过 客户 的 个 人 属性 (比如 年 龄 ,城市 ,性别 ,学 历 等 ) .个 
人 资产 经 济 状况 .之 前 在 银行 中 的 交易 或 者 还 款 行为 ,以 及 个 人 征 信 信息 等 ,对 客户 变 坏 的 概 
率 进行 预测 ,从 而 有 效 地 预防 果 坏 账 的 出 现 。 最 后 一 个 案例 的 分 析 对 象 是 中 小 能 源 型 企业 ,其 
主旨 是 为 这 类 企业 的 信用 评价 提供 一 种 方法 和 范式 。 首 先 ,建立 信用 评价 体系 可 扩大 这 类 企 
业 融 资 的 渠道 。 其 次 ,建立 该 体系 考虑 了 能 源 行业 自身 特点 。 最 后 ,为 投资 人 提供 考察 依据 。 


20.1 企业 对 创新 经 济 活动 推动 的 影响 分 析 


在 过 去 很 长 一 段 时 间 内 ,科技 对 经 济 社会 发 展 的 贡献 率 较 低 。 但 近年 来 ,国家 已 站 
在 战略 的 高 度 明确 了 实施 创新 驱动 经 济 发 展 战略 的 重要 性 ,并 指出 科技 创新 是 提高 综合 








数据 分 析 除 了 在 互联 网 中 的 广泛 应 用 ,在 金融 和 经 济 中 的 应 用 更 加 广泛 。 互 联网 领域 
的 分 析 更 偏重 于 时 效 性 。 在 电 商 行业 ,数据 分 析 人 员 需 要 实时 地 监测 数据 ,一 般 这 里 提 及 的 
实时 会 以 每 日 或 者 每 小 时 计算 。 比 如 线 上 商城 在 某 一 时 段 开 展 促 销 活动 后 ,分 析 人 员 就 会 
每 小 时 地 观测 交易 数据 ,以 防 出 现 一 些 诸如 页 面 显 示 错 误 或 者 错 价 之 类 的 问题 。 然 而 ,数据 
分 析 在 金融 和 经 济 中 的 应 用 ,更 多 地 会 从 数学 统计 建 模 的 角度 去 看 数据 。 比 如 在 银行 中 ,分 
析 人 员 会 用 Logistic 回归 模型 去 预测 客户 变 坏 的 概率 。 因 此 ,金融 商业 和 经 济 中 的 数据 分 
析 更 偏重 的 是 根据 一 段 比较 长 时 间 的 历史 数据 进行 分 析 决 策 或 预测 。 

本 章 将 分 享 关于 金融 和 经 济 的 三 个 分 析 案 例 , 以 给 读者 ; 试图 通过 这 样 的 展示 ,在 一 定 
程度 上 为 将 来 深入 的 探讨 ,交流 分 析 相 关 的 案例 做 铺垫 。 这 三 个 分 析 案 例 包括 企业 对 科技 
推动 的 影响 力 分 析 、 贷 款 风险 评估 分 析 , 以 及 中 小 能 源 型 企业 信用 评价 分 析 。 第 一 个 案例 主 
要 分 析 了 各 种 类 型 的 企业 组 织 对 科技 创新 推动 经 济 的 影响 程度 。 具 体 地 说 ,根据 基于 499 
家 公司 /企业 的 调查 问卷 数据 中 显示 ,商业 公司 被 认为 是 最 重要 的 学 习 共享 科技 创新 的 主导 
者 ,大 学 是 推动 科技 创新 人 才 的 聚集 地 ,行业 协会 是 最 重要 的 促 科技 合作 的 推动 者 。 第 二 个 案 
例 主要 进行 信贷 风险 的 定量 分 析 一 一 通过 客户 的 个 人 属性 (比如 年 龄 ,城市 ,性别 ,学 历 等 ) .个 
人 资产 经 济 状况 .之 前 在 银行 中 的 交易 或 者 还 款 行为 ,以 及 个 人 征 信 信息 等 ,对 客户 变 坏 的 概 
率 进行 预测 ,从 而 有 效 地 预防 果 坏 账 的 出 现 。 最 后 一 个 案例 的 分 析 对 象 是 中 小 能 源 型 企业 ,其 
主旨 是 为 这 类 企业 的 信用 评价 提供 一 种 方法 和 范式 。 首 先 ,建立 信用 评价 体系 可 扩大 这 类 企 
业 融 资 的 渠道 。 其 次 ,建立 该 体系 考虑 了 能 源 行业 自身 特点 。 最 后 ,为 投资 人 提供 考察 依据 。 


20.1 企业 对 创新 经 济 活动 推动 的 影响 分 析 


在 过 去 很 长 一 段 时 间 内 ,科技 对 经 济 社会 发 展 的 贡献 率 较 低 。 但 近年 来 ,国家 已 站 
在 战略 的 高 度 明确 了 实施 创新 驱动 经 济 发 展 战略 的 重要 性 ,并 指出 科技 创新 是 提高 综合 
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国力 的 战略 支撑 ,必须 摆 在 国家 发 展 全 局 的 核心 位 置 。 因 此 ,本 案例 基于 企业 对 创新 科 
技 推动 的 影响 力 进 行 分 析 , 旨 在 研究 和 探索 各 种 创新 型 企业 组 织 对 科技 创新 的 推动 
力度 。 


20.1.1 案例 背景 


为 了 深入 了 解 各 种 类 型 的 企业 对 科技 创新 的 相对 贡献 程度 ,本 案例 从 定量 的 角度 ,对 公 
司 政府、 高 校 ,行业 协会 和 研究 机 构 的 影响 力 展开 了 对 比 研 究 。 这 项 研究 有 助 于 分 析 创 新 
型 企业 组 织 与 中 介 活 动 的 相互 关系 , 旨 在 深入 洞察 哪些 科技 创新 中 介 活 动能 最 大 程度 地 推 
动 科技 创新 ,并 指出 哪些 创新 型 企业 组 织 参与 到 这 些 活动 中 。 

本 案例 涉及 两 个 重要 概念 , 即 科技 创新 中 介 活动 及 创新 型 企业 组 织 。 科 技 创新 中 介 活 
动 指 创新 型 企业 组 织 ( 中 介 ) 从 事 的 促进 科技 创新 的 各 种 活动 ,其 中 包括 提供 、 分 享 商业 及 科 
技 信息 给 创业 者 或 创业 公司 ,为 创业 者 牵线 搭桥 ,将 专业 知识 和 经 验 转 移 到 其 他 行业 ,以 及 
促进 行业 垂直 合作 等 。 本 案例 涉及 的 创新 型 企业 组 织 类 型 包括 公司 ,政府 高校 .行业 协会 
及 研究 机 构 5 种 。 

本 案例 使 用 加 拿 大 政府 的 调查 统计 数据 。 通 过 这 些 数据 能 回答 创新 中 介 活 动 及 其 执行 
企业 组 织 的 相对 重要 性 的 问题 。 分 析 结 果 表 明 ,公司 ,大 学 和 行业 协会 都 对 科技 创新 的 推动 
起 到 至 关 重 要 的 作用 ,而 政府 机 构 只 会 迫使 企业 进行 创新 ,并 没有 在 科技 创新 推动 方面 起 到 
关键 作用 。 虽 然 大 多 数 人 都 会 认为 ,以 到 利 为 目的 的 公司 应 该 在 科技 创新 推动 方面 的 地 位 
难以 撼动 ,但 从 此 次 调查 统计 结果 看 ,这 些 以 盈利 为 目的 的 公司 并 不 是 在 所 有 科技 创新 领域 
都 起 到 至 关 重 要 的 作用 ,其 实际 情况 却 是 平分 秋色 。 比 如 ,大 学 在 帮助 企业 了 解 技 术 时 是 最 
重要 的 角色 ,而 行业 协会 在 促进 多 方 合作 的 创新 中 是 最 重要 的 角色 。 


20.1.2 分 析 方 法 与 过 程 


1. 数据 采集 背景 

数据 来 源 于 加 拿 大 研究 机 构 发 起 的 大 型 科技 创新 调查 项 目 。 该 项 目 始 于 一 个 小 规模 的 
先期 试验 性 研究 ,研究 人 员 采 访 了 在 北美 .欧洲 和 亚洲 等 国家 的 75 家 公司 技术 人 员 ,并 就 其 
中 的 73 家 公司 进行 了 问卷 调查 。 结 果 表 明 , 大 多 数 行业 内 企业 以 类 似 的 方式 进行 创新 ,而 
另外 一 些 行业 内 企业 的 创新 则 以 非常 不 同 的 方式 进行 中 。 由 此 ,研究 人 员 决 定 展开 关于 科 
技 创新 调查 的 大 型 项 目 。 

该 调查 项 目 由 加 拿 大 社会 科学 院 在 2008 年 提供 资金 ,并 与 一 些 大 型 的 研究 机 构 及 苏 塞 
克 斯 大 学 的 科学 政策 研究 项 目 组 合作 进行 中 。 该 项 目的 总 体 目标 是 通过 综合 考虑 一 系列 的 
创新 战略 ,企业 政策 .R&D 架构 、 创 新 管理 方式 ,以 及 不 同 企业 组 织 在 创新 过 程 中 的 作用 ， 
从 而 分 析 创新 技术 创造 价值 的 路 径 。 该 调查 问卷 有 11 页 ,包括 8 个 部 分 (423 项 问题 )。 完 
成 问卷 需 用 时 约 一 小 时 。 涉 及 的 8 个 部 分 面 括 创新 行业 背景 ,创造 价值 的 能 力 、 创 新 战略 、 
组 织 创新 的 架构 、 创 新 的 网 络 ,公司 /企业 业绩 ,及 其 基本 信息 。 

调查 问卷 主要 针对 从 事 研 发 活动 的 大 公司 /企业 进行 ,主要 调查 对 象 包括 这 些 大 公司 的 
研发 总 监 及 技术 总 监 ,问卷 通过 电话 和 电子 邮件 完成 。 由 于 调查 问卷 设计 的 复杂 性 ,因此 其 
回答 率 大 概 在 25%。 
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và 大 数据 分 析 与 计算 


最 终 样 本 量 来 源 于 940 家 企业 的 数据 。 这 些 样本 企业 和 皆 来 自 于 广泛 的 行业 和 国家 。 其 
中 涉及 电子 设备 家电 及 零 部 件 制造 、 交 通 运输 设备 制造 业 、 采 矿业 、 化 工 制造 业 、 计 算 机 及 
电子 产品 制造 业 、 软 件 服务 、 工 程 服务 、 计 算 机 系统 设计 和 相关 服务 、 管 理 和 业务 服务 ,以 及 
科技 咨询 服务 。 样 本 企业 大 多 来 自 加 拿 大 、 美 国 、 英 国 、 法 国 、 瑞 士 、 中 国 和 韩国 (还 有 一 小 部 
分 来 自 奥地利 南美 和 非洲 )。 由 此 可 见 , 从 国家 和 行业 的 跨度 来 看 ,样本 的 选取 还 是 较 客 观 
和 科学 的 。 

2. 数据 准备 : 分 析 样 本 

基于 调查 问卷 的 结果 ,本 案例 衡量 了 创新 中 介 活 动 及 推动 活动 的 企业 组 织 的 相对 重要 
性 。 笔 者 从 944 家 企业 选 出 回答 了 关键 问题 的 499 家 企业 ,并 基于 这 些 数 据 进 行 分 析 。 从 
944 家 企业 的 调查 数据 中 选 出 499 企业 的 调查 数据 ,这 样 的 操作 可 能 会 造成 采样 的 偏差 问 
题 , 因 此 我 们 首先 做 了 样本 偏差 测试 ,对 比 选 取 的 样本 企业 的 特征 和 全 体 样本 的 特征 。 接 下 
来 的 部 分 将 展示 样本 偏差 测试 所 涉及 的 变量 及 最 终结 果 。 

3. 样本 偏差 测试 分 析 

偏差 测试 涉及 12 个 变量 ,其 中 包括 关于 投资 .资源 和 盈利 能 力 的 5 个 变量 .关于 行业 的 
3 个 变量 ,以 及 关于 国家 的 4 个 变量 。 表 20-1 中 列举 了 选取 的 12 个 变量 。 针 对 5 个 关于 投 
资 .资源 和 列 利 能 力 的 连续 性 变量 ,运用 t 检 验 和 Mann-Whitney U 检验 。 表 20-1 显示 ,我 
们 所 选取 的 样本 确实 存在 偏差 。 选 取 的 样本 与 去 掉 的 样本 相 比 ,选取 的 样本 企业 研发 与 销 
售 的 比例 相对 比较 低 , 对 创新 技术 投入 较 少 的 人 力 和 物力 ,但 在 过 去 三 年 具备 较 高 的 年 销售 
增长 额 及 平均 净利 润 。 也 就 是 说 ,选取 的 样本 企业 更 注重 销售 额 和 利润 的 增长 ,而 相对 忽略 
研发 和 创新 活动 。 

除 此 之 外 ,针对 行业 变量 ,运用 卡 方 检验 来 检验 三 个 行业 的 企业 /公司 比例 的 差异 。 结 
果 显 示 ( 参 见 表 20-1) ,在 三 个 行业 中 的 企业 比例 的 差异 没有 统计 显著 性 ,这 说 明 样 本 的 偏 
差 并 不 是 由 行业 这 个 因素 造成 的 。 

最 后 ,针对 国家 区 域 变 量 , 运 用 卡 方 检验 比较 企业 /公司 的 数量 占 比 在 4 个 国家 间 的 差 
异 。 结 果 显 示 ( 参 见 表 20-1) ,在 选取 的 样本 中 ,亚洲 企业 /公司 的 比例 比较 高 ,而 北美 洲 企 
业 / 公 司 的 比例 比较 低 ; 在 去 掉 的 样本 中 , 则 是 相反 的 情况 。 近 年 来 ,亚洲 国家 GDP 的 增 速 
比 北 美国 家 快 ,并 且 亚 洲 国家 比 西方 国家 更 重视 一 利 而 忽视 创新 的 长 期 价值 。 因 此 以 上 观 
察 验证 了 在 偏差 测试 第 一 部 分 的 结论 : 在 选取 的 样本 中 的 企业 /公司 比 去 掉 样 本 中 的 企业 / 

















公司 更 注重 短期 盈利 和 利润 率 的 增长 。 
表 20-1 偏差 测试 分 析 结 果 
变 量 样本 量 检 验 结 果 
研发 .利润 相关 变量 | 

1. 研发 在 销售 额 中 的 占 比 | 714 两 个 样本 t 检验 一 2.69” 
2. 员工 人 数 | 714 两 个 样本 t 检 验 1.51 
3. 耗费 在 创新 技术 上 的 时 间 和 财力 | 714 Mann-WhitneyU 2.04" 
A. 每 年 销售 增长 额 | 714 Mann-Whitney U 一 2.30” 
5. 平均 的 纯利 润 | 714 Mann-WhitneyU —3.897 
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行业 相关 变量 | 
6. 在 以 科学 为 基础 的 行业 中 的 公司 比例 | 186 卡 方 检验 0.00 
7. 在 大 规模 稳定 行业 中 的 公司 比例 | 182 卡 方 检验 1.00 
8. 在 竞争 激烈 行业 中 的 公司 比例 | 375 卡 方 检验 0.73 

国家 区 域 相关 变量 | 
9. 加 拿 大 公司 比例 | 302 卡 方 检验 126.017" 
10. 美国 公司 比例 | 178 卡 方 检验 1.09 
11. 中 国 公司 比例 | 201 卡 方 检验 156.55" 
12. 韩国 公司 比例 | 60 卡 方 检验 Tag" 











** p<. 01; x p<. 001 


总 之 ,通过 以 上 的 偏差 分 析 发 现 , 本 案例 中 选取 的 样本 的 确 与 去 掉 的 样本 有 偏差 ,也 就 
是 说 ,选取 样本 与 总 体 有 偏差 。 不 得 不 承认 ,这 点 儿 瑕 症 会 是 本 案例 的 不 足 之 一 。 但 由 于 这 
与 数据 采集 过 程 相关 ,在 后 期 的 分 析 较 难 规避 此 类 问题 。 

4. 建 模 方法 的 选择 

本 节 将 阐述 数据 统计 分 析 方 法 的 4 种 选择 及 最 终 选择 方法 的 理由 。 可 供 考 虑 的 选择 包 
括 相关 性 分 析 、 线 性 回归 模型 有 序 Logistic 回归 模型 ,以 及 通过 修正 因 变 量 的 有 序 回归 模 
型 。 下 文 将 详 述 方法 选择 的 基本 原理 。 

在 数理 统计 中 ,相关 性 通常 用 Pearson 相关 性 系数 衡量 , 它 是 两 个 变量 之 间 的 线性 关系 
的 度量 四。 该 相关 系数 的 范围 从 一 1 到 1。 当 系数 为 一 1 或 1 时 意味 着 两 个 变量 之 间 的 关 
系 是 线性 的 ,而 系数 为 0 时 意味 着 这 两 个 变量 之 间 没 有 线性 关系 ; 系数 为 0 和 1 之 间 的 绝 
对 值 意 味 着 有 两 个 变量 之 间 的 非 线 性 关系 外。 总 之 ,相关 性 分 析 只 能 表明 一 个 因 变量 和 每 
个 自 变量 之 间 的 关系 ,这 种 方法 难以 同时 衡量 多 个 自 变量 和 多 个 因 变 量 的 关系 ,并 且 还 不 能 
考虑 到 一 些 控制 变量 的 影响 。 

受到 相关 性 分 析 局 限 性 的 启发 .可 进一步 考虑 线性 (OLS) 回 归 分 析 中 。OLS 回归 是 估 
计 因 变量 与 一 个 或 多 个 自 变量 之 间 的 关系 的 方法 ,其 主要 假设 包括 自 变 量 之 间 不 存在 多 重 
线性 关系 ,以 及 因 变 量 必 须 是 正 态 分 布 器 。 通 过 统计 软件 计算 方差 膨胀 因子 (VIF) ,该 指标 
主要 反映 了 自 变量 之 间 的 多 重 共 线 性 的 严重 程度 。 结 果 表 明 , 所 有 模型 的 VIF 小 于 5, 所 以 
模型 中 的 自 变量 并 不 存在 多 重 共 线性 问题 。 

接着 需 检验 第 二 个 假设 一 一 因 变 量 是 否 是 正 态 分 布 。 图 20-1 展示 了 10 个 模型 的 因 变 
量 分 布 的 直方 图 。 结 果 表 明 , 某 些 模型 的 因 变 量 分 布 违反 了 正 态 分 布 的 假设 。 因 此 ,我 们 应 
该 选择 其 他 方法 ,而 不 是 OLS 回归 模型 。 

在 统计 中 ,有 序 Logistic(OL) 回 归 被 认为 是 由 因 变 量 二 分 法 的 OLS 回归 模型 升华 而 
来 四 。OL 回归 对 因 变量 的 分 布 没有 任何 假设 ,并 且 连 续 型 或 离散 型 的 因 变量 缘 可 接受 。 
OL 回归 的 主要 假设 是 比例 优势 假设 中 。 我 们 使 用 卡 方 检验 查看 10 个 模型 的 因 变 量 是 
否 能 通过 比例 优势 假设 检验 。 如 表 20-2 Bros ,大 多 数 模型 的 因 变量 (除了 模型 10 以 外 ) 
都 违背 了 比例 优势 假设 检验 。 因 此 ,我 们 应 针对 因 变 量 进行 修正 ,从 而 OL 模型 能 得 以 
实施 。 





án 


大 数据 分 析 与 计算 






































Identify people Identify partner Facilitate innovation collaboration Help learn technology 
150 150 150 150 
100 100 100 100 
50 50 50 50 
0 0 0 0 
2 4 6 8 2 4 6 8 2 4 6 8 2 8 
Help learn markets Help learn business Promote standards Undertake innovative activities 
150 150 | 150 150 
100 100 100 100 
50 50 50 50 
0 0 0 0 
2 4 6 8 2 4 6 8 2 4 6 8 z 4 6 8 
Force innovation 
Force innovation regulations social pressure 
150 150 
100 100 1 
: TID ” l1 
0 一 0 ~ 
2 4 6 8 


2 4 6 8 
图 20-1 10 个 模型 的 因 变量 分 布 的 直方 图 


表 20-2 针对 10 个 模型 的 卡 方 检验 





科技 创新 中 介 活 动 的 重要 性 + 方 值 
模型 1: 甄 别人 才 9217155 
模型 2 寻找 合作 伙伴 111.46** 
模型 3 :促进 创新 合作 156. 01** 
模型 4: 帮 助 学 习 新 技术 107. 33" 
模型 5: 帮 助 了 解 市 场 92.01'" 
模型 6: 帮 助 了 解 商业 05:220 
模型 7: 提 出 标准 87.47" 
模型 8: 从 事 创 新 研发 活动 80.01” 
模型 9: 用 政策 促进 科技 创新 tasso 
BUS 10: H TE ZEE 7] BDRCRE E BT 65. 67 





xx%% + p<0.001; ** : p<0.0l; * : p<0.05 


当 OL 回归 的 假设 被 违反 的 时 候 , 最 常用 的 方法 就 是 对 多 分 类 的 因 变 量 (1 一 7 评分 分 
类 ) 进 行 重新 分 组 ,从 而 使 得 因 变 量 能 通过 比例 优势 假设 检验 9 。 具 体 来 说 ,针对 因 变 量 的 
取 值 进行 重新 分 组 或 合并 ,在 不 断 迭 代 以 后 ,最 终 得 到 卡 方 检验 的 可 接受 的 p 值 。 比 如 , 因 
变量 及 n 个 分 类 取 值 ,其 对 应 的 分 组 组 数 应 该 是 2~n 组 ( 当 分 组 数位 2 时 ,OL 回归 退化 为 
二 分 Logistic 回归 )5 。 在 本 案例 中 ,对 应 为 7( 因 为 因 变量 采用 1 一 7 评分 法 而 得 到 ), 所 
以 分 组 或 合并 的 组 数 应 该 为 2、.3、4、5、6、7; 假设 分 组 或 合并 组 数 为 k(k 二 2,3,4,5,6,7), 相 
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当 OL 回归 的 假设 被 违反 的 时 候 , 最 常用 的 方法 就 是 对 多 分 类 的 因 变 量 (1 一 7 评分 分 
类 ) 进 行 重新 分 组 ,从 而 使 得 因 变 量 能 通过 比例 优势 假设 检验 9 。 具 体 来 说 ,针对 因 变 量 的 
取 值 进行 重新 分 组 或 合并 ,在 不 断 迭 代 以 后 ,最 终 得 到 卡 方 检验 的 可 接受 的 p 值 。 比 如 , 因 
变量 及 n 个 分 类 取 值 ,其 对 应 的 分 组 组 数 应 该 是 2~n 组 ( 当 分 组 数位 2 时 ,OL 回归 退化 为 
二 分 Logistic 回归 )5 。 在 本 案例 中 ,对 应 为 7( 因 为 因 变量 采用 1 一 7 评分 法 而 得 到 ), 所 
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对 应 的 分 组 策略 应 该 为 (N 一 1)!1 /((k 一 1)! (N 一 k)!)。 我们 将 通过 的 阅 值 定 为 p= 
0.05, 从 而 挑选 出 针对 每 个 模型 较 佳 的 分 组 策略 ,如 表 20-3 所 示 。 


表 20-3 ”模型 中 因 变 量 较 佳 的 分 组 策略 


























因 变量 分 组 策略 E 5 E! 
模型 1: 甄别 人 才 1234567 31.46 0. 05 
模型 2: 寻找 合作 伙伴 123415167 30. 57 0. 06 
模型 3: 促进 创新 合作 12341567 27.64 0. 19 
BUS 4. 帮助 学 习 新 技术 12314151617 40. 50 0.06 
模型 5: 帮助 了 解 市 场 123415167 27.91 0.11 
模型 6: 帮助 了 解 商业 1234]|5]67 50. 80 0. 05 
模型 7: 提出 标准 12341567 50. 80 0. 05 
模型 8: 从 事 创 新 研发 活动 123415167 20. 27 0. 44 
模型 9: 用 政策 促进 科技 创新 12131415167 60. 50 0.05 
模型 10: 用 社会 压力 倒 逼 科技 创新 1121314151617 65. 67 0.05 

















通过 以 上 一 系列 的 统计 方法 的 对 比 及 修正 ,最 终 得 到 满足 假设 条 件 的 10 个 模型 ,并 采 
用 修正 过 的 OL 回归 进行 建 模 分 析 。 

5. 建 模 结果 

通过 修正 后 的 有 序 Logistic 回归 模型 ,我们 能 验证 文献 综述 所 得 的 假设 是 否 成 立 。 假 
设 1 表明 公司 在 推进 与 业务 相关 的 学 习 过 程 中 起 到 至 关 重 要 的 作用 ,特别 是 推进 其 他 企业 、 
公司 学 习 新 的 市 场 和 商业 业务 。 从 建 模 的 结果 来 看 (如 表 20-4 所 示 ) ,公司 帮助 其 他 企业 了 
解 新 市 场 (模型 2: 8 二 0. 85, p—0. 001) ,提供 业务 咨询 (模型 3: Bp 二 0.70,p 二 0.001), 并 识 
别 和 确定 合作 伙伴 (模型 5: 8=0. 99, p<0. 001)。 这 表明 公司 能 促进 商业 及 市 场 相 关 的 学 
习 , 并 帮助 王 别 合适 的 合作 伙伴 。 因 此 建 模 结 果 支 撑 能 部 分 支持 假设 1 的 论点 。 

假设 2 认为 高 校 主要 推动 技术 相关 的 学 习 和 合作 。 具 体 来 说 ,学 校 主要 帮助 公司 了 解 
新 技术 (模式 1: B= 二 0.72,p 二 0. 001) .甄别 有 识 之 士 (模型 4: 9— 1. 00, p<0. 001), 并 承担 
企业 的 创新 研发 活动 (模型 8: 8 一 0.93,p 二 0.001)。 因 此 建 模 结果 支持 假设 2 的 论点 。 

假设 3 认为 政府 机 构 一 般 以 强制 的 形式 推动 创新 。 具 体 来 说 ,从 模型 9 和 模型 10 的 结 
果 来 看 ,政府 通过 法 规 或 社会 压力 迫使 企业 创新 (模型 9: 9— 1. 44. p—0. 001) 及 (模型 10: 
BP 二 1.08,p 二 0.001)。 因 此 , 建 模 结 果 支 持 假设 3 的 论点 。 

除了 假设 检验 以 外 ,我 们 还 基于 行业 和 地 区 的 分 类 数据 进行 了 分 析 ,汇总 结果 如 下 。 当 
数据 被 分 为 制造 业 和 服务 业 时 ,我 们 发 现 高 校 和 行业 协会 的 作用 在 制造 业 比 服务 业 更 为 明 
显 。 这 可 能 是 由 于 制造 业 需 要 更 高 难度 和 强度 的 研究 ,及 其 产品 更 大 的 复杂 性 。 

虽然 研究 院 在 促进 科技 创新 的 过 程 中 并 没有 充当 最 重要 的 角色 ,但 它们 在 帮助 企业 了 
解 技术 过 程 中 起 到 重要 的 作用 (模型 1) 。 此 外 ,根据 样本 企业 自身 的 特性 ,数据 被 分 成 三 
个 产业 集群 ,包括 以 科学 为 基础 的 产业 .大 规模 稳定 的 产业 ,及 竞争 激烈 的 产业 。 我 们 发 
现 研 究 院 在 大 规模 稳定 的 产业 中 比 在 其 他 两 个 产业 中 起 到 更 重要 的 作用 。 这 一 发 现 表 
明 ,在 大 规模 稳定 上 且 监 管 干预 较 高 的 产业 集群 中 的 研究 院 比 其 他 产业 集群 的 研究 院 更 为 
重要 。 
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(14.59) (36. 74) 
政府 0.13 0.32 0.35 0.55" 
(0.47) (2.45) (2.55) (8.62) 
大 学 0:725 0. 43 Lon 05l“ 
(19. 35) (1.60) (36. 00) (4. 26) 
研究 院 (Eie 0.747" 0. 48* 0.49* 
(11. 70) (8. 28) (4. 34) (6.48) 
行业 协会 0.32 028155 0568** 075 
(3. 96) (23.12) (14. 01) (21.87) 
Ln( 公 司 规模 ) 0.02 0. 00 0.01 0. 03 
(0.61) (0. 36) (0. 13) (2.27) 
销售 增长 额 0.08 0.13 (ETE nono 
(1.54) (3.47) (4. 89) (6.29) 
研发 投资 0.01 0.01 0.01 0.02" 
(2.53) (0. 86) (2.24) (10.15) 
人 力 投资 一 0.02 0.03 —0. 04 一 0.05 
(0. 10) (0. 22) (0. 50) (0.74) 
净利 润 0.05 —0. 03 0. 00 0. 08 
(0.52) (0. 18) (0. 00) (1.43) 
Chi-square ERES CREE 93.22" 119.88*" 








Nagelkerke R* 


0.12 


0.21 











模型 8 





模型 10 
















































































承担 创新 活动 社会 压力 倒 和 逼 创新 
公司 5 A 0.37* 0. 48 0.857" 
(9.87) (6.85) (4. 30) (2.06) (15. 36) 
政府 0.857" 037828 0. 30 1.4477 1.08% 
(24. 36) (20. 83) (3.37) (60. 16) (44. 75) 
大 学 0.877" 0.38 0.937" 0.58 0. 46 
(18. 35) (2.08) (30. 52) (5. 68) (4. 69) 
研究 院 0. 26 0.36 0.61” 0.57 0.65" 
(1.34) (2.06) (8. 10) (2.54) (5.62) 
行业 协会 ile 0.79" 0.627 [Eee 0.817" 
(37. 35) (21. 30) (9. 60) (8. 70) (17.91) 
Ln( 公 司 规模 ) 0.07* 0.08* 0. 03 0.10* 0. 00 
(5.77) (4.58) (0. 16) (4.77) (3.69) 
销售 增长 额 0.09 0.13 0.10 0.12 0.14* 
(1.82) (3.15) (2.83) (2. 89) (4.45) 
研发 投资 0.01™ 0.00 0.00 EUIS 0.00 
(6. 89) (0.07) (0. 68) (4. 05) (0. 22) 
人 力 投资 一 0.04 一 0.06 —0.04 E0134 EUM 
(0.57) (0.05) (0. 46) (5. 30) (8.85) 
净利 润 0.03 一 0.02 一 0.01 一 0.020 一 0.07 
(0.15) (0.07) (0. 03) (0. 09) (1.26) 
Chi-square 128.737" USERS 59.48" 124. 80** 1M.51'* 
Nagelkerke R* 0.22 0.15 0.12 0.22 0. 20 





* p.05, xx p 01, xx p.001 
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当 关注 关于 区 域 的 分 类 数据 时 ,我 们 发 现 北美 洲 的 公司 比 亚 洲 的 公司 在 科技 创新 的 贡 
献 方面 更 为 重要 。 相 关 文 献 认为 ,中 国 社会 过 分 强调 个 人 的 信任 ,而 忽略 制度 信任 9 。 因 
此 ,公司 在 西方 国家 比 亚 洲 国家 在 科技 创新 领域 更 为 重要 。 另 一 方面 ,行业 协会 在 亚洲 比 北 
美 更 为 重要 。 

关于 控制 变量 有 三 个 有 趣 的 发 现 。 首 先 ,销售 额 高 速 增长 的 公司 认为 以 下 三 方面 最 为 
重要 提供 商业 建议 (模型 3: 9—0. 15, p —0. 05)、 甄 别人 才 ( 模 型 4: 8—0. 15, p — 
0. 05) ,以 及 寻找 合作 伙伴 (模型 5: 8 二 0.17,p 二 0.05)。 其 次 ,大 公司 则 认为 以 下 三 方面 最 
为 重要 一 一 推动 .促进 合作 (模型 6: 8=0.01,p<0. 01) .提出 并 促进 标准 (模型 7: 8==0. 01, 
50. 05) ,以 及 政策 法 规 的 作用 (模型 9 : 8=0. 01, p<0. 05). RJA RED 密集 型 公司 认为 
以 下 三 方面 最 为 重要 一 一 识别 合作 伙伴 (模型 5: 8=0. 02, p<0. 01) 及 促进 合作 (模型 6: 
8-0. 01, p<0. 01) ,但 它们 对 政策 法 规 的 作用 并 不 重视 (模型 9: 9— — 0.01, p<0. 05). 

以 上 案例 展示 了 建 模 的 整个 流程 一 一 数据 采集 ,样本 分 析 , 建 模 方法 对 比 和 确定 ,以 及 
最 后 的 建 模 结果 展示 和 诠释 。 


20.2 信贷 风险 模型 评估 





信贷 风险 ,主要 针对 银行 放贷 出 去 的 款项 ,借款 人 到 期 不 能 偿还 而 形成 逾期 .呆滞 或 呆 
账 ,使 银行 蒙受 损失 的 可 能 性 。 信 贷 风险 管理 是 当前 商业 银行 风险 管理 的 核心 。 如 何 准确 
把 握 和 有 效 防范 信贷 风险 ,确保 金融 安全 ,是 一 项 庞大 而 复杂 的 系统 工程 和 长 期 任务 。 近 年 
来 ,商业 银行 在 强化 信贷 风险 管理 ,防范 和 化 解 信贷 风险 上 做 了 大 量 的 理论 研究 与 实践 控 
索 , 取 得 了 显著 的 工作 成 效 和 丰富 的 实践 经 验 ,信贷 资产 质量 明显 提高 。 在 信贷 风险 定量 管 
理 分 析 的 实践 中 ,会 大 量 地 使 用 数学 统计 建 模 的 过 程 ,进行 风 险 的 评估 和 预测 。 

具体 来 说 ,银行 在 审批 客户 贷款 申请 或 信用 卡 管理 的 时 候 ,需要 通过 客户 的 个 人 属 
性 (比如 年 龄 ,城市 性别 .学历 、 工 作 状 态 等 )、 个 人 资产 情况 .之 前 在 银行 中 的 交易 或 者 
还 款 行为 ,以 及 个 人 征 信 信息 等 ,对 客户 变 坏 的 概率 进行 预测 ,从 而 有 效 地 预防 果 坏 账 的 
出 现 。 

1. 数据 处 理 


首先 结合 业务 背景 ,将 业务 转化 为 数据 的 语言 ,并 将 所 要 涉及 的 变量 整理 出 来 。 比 如 本 
案例 中 ,涉及 的 变量 包括 年 龄 .工作 情况 ,教育 背景 ,性 别 、 之 前 信用 还 款 行为 ,以 及 个 人 征 信 
信息 等 。 针 对 这 些 数据 ,进行 初步 的 描述 性 统计 ,审查 数据 的 质量 问题 。 如 果 数 据 质量 差 ， 
先 做 数据 清洗 。 比 如 某 个 变量 有 大 量 缺 失 值 , 一 般 处 理 缺 失 值 的 办 法 有 如 下 三 种 : 直接 删 
Vis 取 非 空 记录 的 平均 值 代替 缺失 值 ; 先 将 整个 样本 聚 类 ,从 而 让 缺失 值 所 对 应 的 记录 归 
入 到 某 一 类 ,然后 通过 同一 类 的 其 他 记录 的 平均 值 代替 缺失 值 。 这 三 种 方法 中 ,第 一 种 方法 
可 能 会 引起 样本 量变 小 或 信息 丢失 的 结果 ; 而 第 三 种 方法 相对 复杂 ,但 比较 合理 。 除 了 缺 
失 值 的 处 理 , 在 建 模 的 一 些 案例 中 ,还 可 能 会 遇 到 样本 量 的 充足 性 问题 。 如 果 建 模 的 样本 量 
严重 不 足 , 将 影响 到 预测 结果 的 可 信和 度 。 因 此 可 以 修改 采集 数据 的 流程 ,进而 使 得 数据 量 达 
到 一 定 标准 。 
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2. 数据 分 析 过 程 

在 对 原始 数据 进行 了 初步 的 质量 治理 及 样本 量 确认 后 ,需要 对 建 模 过 程 做 进一步 的 基 
础 准备 ,也 就 是 对 相关 概念 进行 界定 。 相 关 概 念 包 括 观察 期 .表现 期 .逾期 (逾期 大 于 30 天 、 
逾期 大 于 60 天 ,逾期 大 于 90 XO ,坏账 (逾期 大 于 180 天 )、 观 察 期 排除 样本 ,及 表现 期 排除 
样本 等 。 

具体 来 说 ,针对 同一 批 同一 个 月 申请 的 贷款 ,观察 期 一 般 是 申请 的 第 一 个 月 ,这 个 月 起 
到 积累 样本 量 的 作用 。 在 一 个 月 后 ,会 进入 这 批 贷款 的 表现 期 ,表现 期 一 般 是 12 个 月 或 者 
18 个 月 。 然 后 需要 进行 逾期 分 析 , 以 得 到 对 坏账 户 的 定义 。 从 逾期 分 析 图 能 看 出 ,在 建 账 
以 后 的 第 几 个 月 开始 逾期 的 账户 渐渐 变 少 ,于 是 可 以 将 这 个 转折 月 ,作为 坏账 户 的 表现 期 的 
长 度 。 比 如 坏 的 定义 可 以 是 ,在 12 个 月 表现 期 内 逾期 大 于 60 天 的 账户 。 观 察 期 排除 样本 
的 定义 会 根据 不 同 的 贷款 组 合 而 变化 ,但 也 会 有 相互 的 交集 ,比如 在 观察 期 期 间 重新 申请 、 
取消 申请 ,怀疑 欺诈 等 情况 的 样本 都 可 能 被 纳入 观察 期 排除 样本 的 列表 中 。 而 表现 期 排除 
样本 所 涉及 的 样本 相对 少 ,比如 可 包括 在 6 个 月 内 关闭 账户 以 及 没有 账户 表现 信息 等 情况 
的 样本 。 

在 把 上 述 的 概念 界定 清楚 以 后 ,进入 正式 建 模 。 根 据 业 务 背 景 ,首先 选 入 大 量 的 相关 自 
变量 ,包括 年 龄 .工作 情况 .教育 背景 .性别 .个 人 资产 经 济 状况 之 前 信用 还 款 行为 ,以 及 个 
人 征 信 信 息 等 。 接 着 在 这 些 大 量 的 自 变量 中 进行 筛选 。 为 了 保证 模型 的 稳定 性 ,需要 去 除 
连续 变量 样本 非 均匀 分 布 的 影响 。 通 过 对 连续 型 变量 进行 重新 分 档 , 确 保 每 一 档 中 变量 的 
样本 数量 比较 接近 ,然后 再 基于 分 档 后 的 变量 计算 ITV, 从 而 达到 初步 筛选 变量 的 目的 。 
IV 代表 信息 价值 或 者 信息 量 , 它 用 来 衡量 自 变量 的 预测 能 力 , 即 自 变量 对 因 变 量 的 解释 程 
BE. TV 值 的 计算 公式 如 下 : 

变量 第 i 个 取 值 的 IV; 二 (变量 第 i 个 取 值 中 第 一 种 分 类 的 个 数 一 变 量 第 i 个 取 值 中 第 
二 种 分 类 的 个 数 ) Xln(( 变 量 第 i 个 取 值 中 第 一 种 分 类 的 个 数 / 第 一 种 分 类 样本 总 数 )/( 变 
量 第 i 个 取 值 中 第 二 种 分 类 的 个 数 / 第 二 种 分 类 样本 总 数 )) 

变量 总 的 IV = 》) 变量 第 i 个 取 值 的 IV; 

初 得 变量 之 后 ,对 筛选 出 来 的 变量 进行 证 据 权 重 (WOE) 转 换 。WOE 转换 的 目的 是 将 
所 有 的 变量 刻度 归 一 化 ,从 而 降低 由 于 变量 单位 刻度 不 同 而 导致 的 对 结果 的 影响 。WOE 
的 计算 公式 为 : 

变量 第 i 个 取 值 的 WOE, 一 In(( 变 量 第 i 个 取 值 中 第 一 种 分 类 的 个 数 /第 一 种 分 类 样本 
总 数 )/( 变 量 第 i 个 取 值 中 第 二 种 分 类 的 个 数 / 第 二 种 分 类 样本 总 数 )) 

然后 ,再 将 这 些 自 变量 带 入 到 Logistic 回归 模型 中 ,进行 进一步 的 迁 代 处 理 。 和 迭代 的 依 
据 主要 取决 于 以 下 几 个 方面 : 自 变 量 与 因 变 量 的 相关 性 强度 ,指标 IV 是 否 大 于 326 2&8 
存在 共 线 性 问题 ,以 及 模型 总 体 的 Gini 指数 等 。 在 建立 模型 后 ,进一步 做 针对 模型 的 验证 : 
用 余下 的 20% 的 样本 与 建立 模型 使 用 的 80% 的 样本 进行 对 比 ,使 用 PSI 去 衡量 两 个 样本 分 
布 的 一 致 性 ,从 而 确定 模型 的 稳定 性 。 

在 开发 完 模型 后 ,模型 进入 使 用 阶段 ,应 当 对 模型 进行 三 个 维度 的 模型 表现 的 监测 , 包 
括 稳定 性 、 区 分 度 , 以 及 校准 度 。 其 中 ,稳定 性 主要 使 用 PSI 统计 指标 或 者 两 个 样本 的 K-S 
检验 进行 衡量 ,主要 看 基准 样本 与 现 有 样本 的 分 布 是 否 存在 差异 。PSI 的 公式 如 下 : 








$8203 — 金融 和 经 济 数 据 的 分 析 应 

















0% 现 有 样本 i 一 % BERE D X (TER) (20-1) 


其 中 ， % 现 有 样本 i 指 现 有 验证 数据 中 第 ; 个 组 记录 占 总 体 记录 的 比例 ; 而 % 基 准 样本 
i 指 基 准 数 据 中 第 i 个 组 记录 占 总 体 记录 的 比例 。 

衡量 PSI 的 阔 值 标准 如 下 : [0,0. 10) 表 示 现 有 验证 样本 与 基准 样本 没有 显著 的 改变 ; 
[0. 10,0. 25) 表 示 现 有 验证 样本 与 基准 样本 有 改变 , 需 进一步 调查 分 析 ; [0. 25,==) 表 示 分 
布 有 显著 改变 。 

基于 两 个 样本 的 KS 检验 是 一 种 非 参数 检验 , 主要 目的 是 验证 包含 连续 变量 的 两 个 样 
本 分 布 是 否 一 致 。 该 检验 基于 针对 随机 变量 的 Kolmogorov 分 布 : 





K = sup | BCD | (20-2) 
K 的 累计 分 布 函数 如 下 : 
[RU < I-23)c (pests — Lae =, D'az (20-3) 
对 于 两 个 样本 ,KS 检验 用 upon MR p 
Dviiin e = SUP | Feat C1) 一 Fa 人 z) | (20-4) 


其 中 ,DD 为 现 有 验证 样本 与 基准 样本 分 布 的 最 大 距离 。KS 检验 的 原 假 设 是 两 个 分 布 并 没 
有 不 一 样 。 

模型 表现 的 监测 除了 稳定 性 以 外 ,还 需要 考虑 区 分 度 , 其 一 般 通过 Gini IV 两 个 统计 指 
标 进行 衡量 ,主要 看 是 否 能 显著 区 分 好 和 坏 , 或 者 区 分 拒绝 和 接受 。 

在 信贷 风险 管理 的 应 用 中 ,Gini 系数 主要 衡量 是 否 能 显著 区 分 好 和 坏 ,这 个 系数 基于 
Lorenz 曲线 进行 计算 。 如 果 将 Lorenz 曲线 表示 为 L(x) ,那么 Gini 系数 的 公式 如 下 : 


1 
G= ?| L(x)dx— 1 (20-5) 
D 


衡量 Gini 系数 普遍 的 阔 值 标准 如 下 : [0. 50. 1. 00) 表 示 模 型 对 好 和 坏 的 区 分 能 力 很 
强 ; [0. 40,0. 50) 表 示 模 型 对 好 和 坏 的 区 分 能 力 可 接受 ; [0. 30,0. 40) 表 示 模 型 对 好 和 坏 的 
区 分 能 力 不 强 ; [0. 00,0. 30) 表 示 模 型 对 好 和 坏 的 区 分 能 力 令 人 不 满意 。 

IV 用 于 衡量 两 个 分 布 的 差距 ,从 而 能 反映 变量 或 模型 的 区 分 能 力 。 其 公式 如 下 : 


IV, ES ex (n) w(8.))] (20-6) 


其 中 ,NN 表示 好 账户 记录 的 总 数 ,N; 表示 第 i 组 中 好 账户 记录 的 个 数 ,P 表示 坏账 户 记 录 的 
总 数 ,P; 表示 第 i 组 中 坏账 户 记录 的 个 数 。 

衡量 TV 的 阅 值 标准 如 下 : [0. 30,c=) 表 示 模 型 对 好 和 坏 的 区 分 能 力 很 强 ; [0. 10， 
0. 30) 表 示 模 型 对 好 和 坏 的 区 分 能 力 可 接受 ; [0. 02,0. 10) 表 示 模 型 对 好 和 坏 的 区 分 能 力 不 
强 ; [0. 00,0. 02) 表 示 模 型 对 好 和 坏 的 区 分 能 力 令 人 不 满意 。 

最 后 ,校准 度 最 常用 MAPE 统计 指标 衡量 ,主要 看 模型 的 预测 值 与 观测 真实 值 的 差距 。 
在 实际 模型 中 ,我 们 及 个 模型 的 输出 (输入 ) ,MAPE 的 公式 如 下 : 

l3 预测 值 , 一 观测 值 ， 

n = 








MAPE 








A (20-7) 
衡量 MAPE 的 阅 值 标准 如 下 : [0. 00.0. 10) 表 示 模 型 的 预测 能 力 很 强 ; [0. 10.0. 200 
示 模 型 的 预测 能 力 可 接受 ; [0. 20.0. 30) 表 示 模 型 的 预测 能 力 不 强 ; [0. 30,==) 表 示 模 型 的 
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预测 能 力 令 人 不 满意 。 
20.3 中 小 能 源 型 企业 的 信用 评价 分 析 


2008 年 ,由 于 美国 次 贷 危 机 的 爆发 ,次 级 债 的 直接 损失 金额 是 上 万 亿美 元 ,由 次 级 债 所 
形成 的 无 限 放大 效应 ,导致 更 多 的 经 济 损失 。 因 此 这 无 疑 是 对 美国 经 济 乃至 全 世界 经 济 的 
一 场 劫难 ,并 且 加 速 由 金融 市 场 向 实体 经 济 蔓延 。 由 于 全 球 经 济 增长 速度 放 缓 能 源 和 原 材 
料 等 商品 价格 持续 高 升 ,在 一 定 程度 上 影响 企业 的 生存 和 发 展 壮 大 状态 ,特别 是 融资 难 问 
题 ,这 一 直 制 约 着 中 小 企业 的 发 展 。 中 小 企业 融资 难 源 于 三 点 原因 : 第 一 ,信贷 过 程 中 产生 
的 成 本 高 。 中 小 企业 在 贷款 时 ,都 是 相对 的 小 额 信贷 ,不 构成 规模 经 济 ,导致 信贷 方 在 贷款 
时 需要 付出 较 高 成 本 。 第 二 ,信息 不 对 称 "  。 由 于 传统 思想 以 及 信息 不 对 称 造成 ,使 得 信 
贷 金 融 机 构 在 对 中 小 企业 信用 评价 时 产生 认识 上 的 扭曲 ,从 而 对 该 类 企业 产生 怀疑 。 第 三 ， 
中 小 企业 经 营 风 险 较 大 。 中 小 企业 大 部 分 处 于 发 展期 ,在 行业 中 处 于 不 利 的 竞争 地 位 ,因此 
比较 容易 被 挤 出 市 场 ,甚至 是 破产 清算 "”。 因 此 银行 更 愿意 把 贷款 投向 大 企业 ,做 锦 上 添 
花 而 非 雪中送炭 的 事情 。 为 了 缓解 这 个 问题 ,不 得 不 考虑 问题 的 根源 ,中 小 企业 自身 的 信用 
问题 从 一 定 程度 上 导致 银行 在 审批 贷款 时 出 现 很 大 的 担忧。 


20.3.1 案例 背景 


本 案例 的 分 析 对 象 是 中 小 能 源 型 企业 ,案例 主旨 是 为 这 类 企业 的 信用 评价 提供 一 种 方 
法 和 范式 。 首 先 ,建立 信用 评价 体系 可 扩大 这 类 企业 融资 的 渠道 。 企 业 通 过 建立 信用 评价 
系统 ,降低 经 营 者 和 投资 者 的 信息 不 对 称 , 使 得 给 予 贷款 的 机 构 不 会 因为 不 了 解 这 类 企业 实 
际 经 营 管理 情况 而 拒绝 贷款 。 其 次 ,建立 该 体系 考虑 了 能 源 行业 自身 特点 。 现 存 的 企业 信 
用 评价 体系 还 停留 在 宏观 层面 ,不 够 具体 ,缺少 深入 到 能 源 行业 的 系统 的 信用 评价 工具 。 因 
此 ,本 案例 设计 的 中 小 能 源 型 企业 的 信用 评价 体系 更 加 深入 和 细致 。 第 三 ,为 投资 人 提供 考 
察 依据 。 在 国家 提倡 中 小 企业 自主 创新 的 大 环境 下 ,除了 银行 贷款 ,企业 常常 依靠 外 部 的 投 
资 人 进行 再 生产 融资 。 在 这 种 情况 下 ,这 套 信用 评价 体系 ,可 作为 投资 人 风险 评价 的 一 个 很 
好 的 依据 。 最 后 ,建立 该 体系 可 以 提高 企业 的 信用 管理 能 力 。 根 据 中 小 能 源 型 企业 信用 评 
价 体系 ,企业 可 以 审视 自身 在 信用 管理 方面 的 问题 ,规避 企业 经 营 者 的 道德 风险 ,从 而 有 利 
于 企业 品牌 的 创立 。 综 上 所 述 ,中 小 能 源 型 企业 需要 一 套 切合 实际 的 信用 评价 体系 来 促进 
融资 ,并 适时 提出 以 中 小 能 源 型 企业 的 视角 去 建立 信用 评价 系统 。 


20.3.2 分 析 方 法 与 过 程 


1. 中 小 能 源 型 企业 信用 评价 体系 的 指标 选择 

本 文 将 指标 预选 和 专家 调查 相 结 合 ,并 利用 统计 分 析 方 法 ,最 终 确 定 出 新 的 指标 系统 。 
这 样 既 可 以 利用 专家 丰富 的 理论 知识 与 实践 经 验 , 也 可 以 避免 传统 的 缺乏 整体 概括 、 定 量 评 
价 结果 不 足 等 缺点 。 指 标 筛 选 的 原理 是 运用 离散 系数 用 来 测定 总 体 各 个 单位 间 的 差异 程度 
的 统计 指数 ,又 称 变异 指标 "”。 其 公式 如 下 : 
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R: = E. (20-8) 


R; 越 小 ,数据 就 越 集中 , 即 指标 代表 性 越 强 。 具 体 来 说 ,R; 小 于 等 于 1/3 ,表示 该 指标 是 
重要 的 ,否则 表示 属于 一 般 性 以 下 指标 ,予以 舍弃 。 通 过 以 上 步 又 ,从 33 个 预选 指标 中 筛选 
出 以 下 25 个 指标 ,作为 最 终 指标 ,如 表 20-5 所 示 。 

表 20-5 筛选 后 的 评价 体系 指标 体系 

领 域 层 指 标 层 
管理 层 素质 
员工 综合 素质 
管理 水 平 
企业 管理 能 力 经 营 战略 
竞争 地 位 
企业 规模 
安全 管理 
行业 水 平 
国家 经 济 
技术 素质 
技术 预测 
原材料 供给 
市 场 占有 情况 
环保 投入 
资源 依赖 性 
资产 负债 率 
偿 债 能 力 速 动 比 
现金 流动 率 
销售 利润 率 
总 资产 报酬 率 
总 资产 周转 率 
应 收 账 款 周转 率 
技术 人 员 比 重 
成 长 创新 能 力 利润 增长 率 
净 资产 增长 率 
































技术 水 平 





























创利 能 力 





财务 管理 能 力 




















资料 来 源 : 石 新 武 . 资信 评估 的 理论 和 方法 . 北京 : 经 济 管理 出 版 社 ,2004. 


2. 模糊 层次 分 析 法 权重 的 确定 

模糊 层级 分 析 法 一 般 分 为 以 下 三 个 步骤 中。 

首先 ,建立 指标 体系 的 模型 。 整 个 指标 模型 分 为 两 层 一 一 领域 层 和 指标 层 。 领 域 层 是 
对 指标 大 类 的 归 类 ,指标 层 是 领域 层 下 的 子 指标 。 

其 次 ,构造 决策 问题 的 模糊 一 致 判断 矩阵 。 根据 指 标 两 两 比较 重要 程度 的 标准 ( 见 
表 20-6) ,构造 模糊 互补 判断 矩阵 。 依 据 公式 (20-9) 转 化 矩阵 ,从 而 形成 模糊 一 致 判断 矩阵 。 


ry see (20-9) 
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表 20-6 ”指标 相对 重要 程度 标准 表 

















LX: E X 说 明 
0.5 同等 重要 两 元 素 比较 ,同等 重要 
0.6 稍微 重要 一 个 元 素 比 另 一 个 稍微 重要 
0.7 明显 重要 一 个 元 素 比 另 一 个 明显 重要 
0.8 重要 得 多 一 个 元 素 比 另外 一 个 重要 得 多 
0.9 极端 重要 一 个 元 素 比 另 一 个 极端 重要 
0.1,0.2,0.3,0.4 反比 较 和 以 上 相反 











最 后 ,计算 最 终 权 重 数 。 使 用 模糊 一 致 的 判断 矩阵 去 推算 各 层次 各 因素 的 权重 ,利用 公 
式 (20-10) 进 行 计算 : 


= nl 
W= E+E Dn (n HER 的 阶 数 : a ) (20-10) 


3. 指标 权重 的 计算 

在 企业 信用 评价 指标 体系 指标 筛选 的 基础 上 ,设计 (中 小 国有 企业 信用 评价 指标 重要 性 
调查 》, 由 专家 打分 填写 。 填 表 流 程 与 指标 筛选 专家 调查 流程 相同 。 收 集 调查 结果 ,进行 统 
计 分 析 ,结合 模糊 层级 分 析 法 原理 ,分 为 以 下 4 步 。 

首先 以 某 一 专家 评分 结果 为 例 , 分 别 为 一 级 指标 和 二 级 指标 构造 模糊 互补 判断 矩阵 。 

第 二 步 ,根据 公式 (20-9), 运 用 统计 软件 运算 并 转化 矩阵 ,从 而 形成 模糊 一 致 判断 矩阵 。 

最 终 ,基于 转化 后 的 一 致 矩阵 ,结合 公式 (20-10) ,计算 出 某 位 专家 给 出 的 权重 。 

最 后 ,根据 不 同 专家 的 调查 结果 ,重复 以 上 步骤 ,确定 最 终 综合 权重 ( 见 表 20-0 。 


表 20-7 中 小 能 源 型 企业 指标 体系 的 权重 分 配 





















































领域 层 权重 指标 层 权重 实际 权重 
管理 层 素 质 0.155 0.025 
员工 综合 素质 0.133 0.021 
管理 水 平 0.159 0.026 
企业 管理 能 力 0.161 经 营 战略 0. 150 0. 024 
竞争 地 位 0. 146 0. 024 
企业 规模 0.125 0.020 
安全 管理 0. 143 0. 023 
行业 水 平 0. 122 0.022 
国家 经 济 0.128 0.023 
技术 素质 0. 124 0.022 
技术 预测 0. 124 0.022 
Aga sd 原材料 供给 0. 122 0.022 
市 场 占有 情况 0. 133 0. 024 
环保 投入 0.121 0.021 
资源 依赖 性 0.124 0.022 
资产 负债 率 0. 294 0. 048 
偿 债 能 力 0. 164 速 动 比 0. 300 0. 049 
现金 流动 率 0. 406 0.067 
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续 表 
领域 层 权重 指标 层 权重 实际 权重 
销售 利润 率 0.517 0. 083 
ana in 成 本 费用 利润 率 0.483 0.077 
总 资产 周转 率 0. 350 0. 059 
strass ns 应 收 账 款 周转 率 0. 306 0.051 
技术 人 员 增 长 率 0. 344 0. 058 
成 长 创新 能 力 0. 169 利润 增长 率 0. 289 0. 049 
总 资产 增长 率 0.372 0.063 

















20.3.3 分 析 结 果 


从 大 方向 人 手 分 析 , 巾 图 20-2 可 见 ,指标 体 系 的 6 大 领域 层 中 ,技术 水 平 、 财 务 管理 以 
及 成 长 创新 能 力 占 较 重 的 权重 ,其 中 ,技术 水 平 又 占有 最 高 的 权重 。 相 对 而 言 ,创利 和 企业 
管理 能 力 占 较 小 权重 。 以 上 结果 表明 ,对 于 中 小 化 工 企业 ,在 考察 其 审查 贷款 时 ,更 多 地 应 
注重 其 技术 创新 能 力 ,即使 暂时 的 利润 不 高 ,但 若 这 类 企业 掌握 了 核心 技术 和 领先 技术 , 且 
这 些 技 术 具 备 较 好 的 市 场 前 景 ,因此 创利 率 大 幅 提 高 或 将 指日可待 。 
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图 20-2 信用 评价 指标 体系 领域 层 权重 分 布 


从 单个 定性 指标 分 析 , 由 图 20-3 可 知 , 企 业 管 理 能 力 中 管理 层 素 质 、 管 理 水 平 . 经 营 战 
略 、 竞 争 地 位 及 安全 管理 占 比 重大 ; 在 技术 水 平 领域 层 下 .国家 经 济 趋势 技术 素质 和 预测 、 
市 场 占有 情况 这 些 指标 比重 较 大 。 这 也 与 中 小 国有 化 工 企业 的 性 质 有 关 , 有 市 场 潜力 的 核 
心 技术 始终 是 该 类 企业 的 关键 点 ,同时 国家 经 济 和 政策 对 国有 企业 的 技术 和 经 营 的 发 展 有 
很 大 影响 。 

从 单个 定量 子 指标 看 ,由 图 20-4 可 见 ,现金 流动 率 、 销 售 利润 率 、 成 本 费用 利润 率 ,总 资 
产 增 长 率 在 考察 企业 财务 状况 时 , 占 很 大 的 比重 。 而 速 动 比 ` 利 润 增长 率 以 及 应 收 账 款 周转 
率 权重 较 小 。 

总 之 ,本 案例 是 基于 综合 考虑 定量 和 定性 指标 建立 的 评价 体系 ,因此 选取 模糊 层次 分 析 
法 。 中 小 能 源 型 企业 信用 评价 体系 的 设计 包括 两 个 部 分 : 指标 选择 和 指标 的 度量 。 指 标 选 
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图 20-4 信用 评价 指标 体系 定量 指标 权重 分 布 


择 时 ,在 已 有 的 指标 体系 的 基础 上 ,考虑 到 中 小 能 源 型 企业 的 自身 特征 ,并 做 相应 的 问卷 调 
查 , 初 步 筛选 出 指标 。 在 度量 阶段 , 先 就 定性 及 定量 指标 评价 标准 进行 说 明 , 再 基于 模糊 层 
次 分 析 法 对 指标 赋 权 重 ,最 终 形成 一 套 针 对 中 小 能 源 型 企业 的 信用 评价 指标 体系 。 
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习题 


1. 简 述 建立 金融 风 控 模 型 的 流程 。 

2. 在 建立 完 金融 风 控 模型 后 ,需要 用 哪些 主要 指标 对 模型 效果 进行 评估 ? 
3. 描述 模糊 层次 分 析 法 的 实现 过 程 。 

4. 简 述 回归 分 析 与 相关 性 分 析 的 区 别 。 

5. 简 述 有 序 Logistic 回归 分 析 与 线性 回归 分 析 的 区 别 。 
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